La IA ayuda a los robots domésticos a reducir el tiempo de planificación a la mitad
Imagen anterior Imagen siguiente
Te entregan tu nuevo robot doméstico en tu casa y le pides que te prepare una taza de café. Aunque conoce algunas habilidades básicas de prácticas anteriores en cocinas simuladas, hay demasiadas acciones que podría realizar: abrir el grifo, tirar de la cadena del inodoro, vaciar el recipiente de harina, etc. Pero hay una pequeña cantidad de acciones que podrían resultar útiles. ¿Cómo puede el robot descubrir qué pasos son sensatos en una nueva situación?
Podría utilizar PIGINet, un nuevo sistema que tiene como objetivo mejorar de manera eficiente las capacidades de resolución de problemas de los robots domésticos. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT están utilizando el aprendizaje automático para reducir el típico proceso iterativo de planificación de tareas que considera todas las acciones posibles. PIGINet elimina los planes de tareas que no pueden satisfacer los requisitos libres de colisiones y reduce el tiempo de planificación entre un 50 y un 80 por ciento cuando se entrena en solo 300 a 500 problemas.
Normalmente, los robots intentan varios planes de tareas y refinan iterativamente sus movimientos hasta que encuentran una solución viable, lo que puede resultar ineficiente y llevar mucho tiempo, especialmente cuando hay obstáculos móviles y articulados. Quizás después de cocinar, por ejemplo, quieras guardar todas las salsas en el armario. Ese problema podría requerir de dos a ocho pasos dependiendo de cómo se vea el mundo en ese momento. ¿El robot necesita abrir varias puertas del gabinete o hay obstáculos dentro del gabinete que deben reubicarse para hacer espacio? No querrás que tu robot sea irritantemente lento, y será peor si quema la cena mientras piensa.
Generalmente se piensa que los robots domésticos siguen recetas predefinidas para realizar tareas, lo que no siempre es adecuado para entornos diversos o cambiantes. Entonces, ¿cómo evita PIGINet esas reglas predefinidas? PIGINet es una red neuronal que toma “planes, imágenes, objetivos y hechos iniciales” y luego predice la probabilidad de que un plan de tarea pueda perfeccionarse para encontrar planes de movimiento factibles. En términos simples, emplea un codificador transformador, un modelo versátil y de última generación diseñado para operar con secuencias de datos. La secuencia de entrada, en este caso, es información sobre qué plan de tarea se está considerando, imágenes del entorno y codificaciones simbólicas del estado inicial y el objetivo deseado. El codificador combina los planes de tareas, imágenes y texto para generar una predicción sobre la viabilidad del plan de tareas seleccionado.
Manteniendo las cosas en la cocina, el equipo creó cientos de entornos simulados, cada uno con diferentes diseños y tareas específicas que requieren que los objetos se reorganicen entre encimeras, refrigeradores, gabinetes, fregaderos y ollas. Al medir el tiempo necesario para resolver problemas, compararon PIGINet con enfoques anteriores. Un plan de tareas correcto puede incluir abrir la puerta izquierda del refrigerador, quitar la tapa de una olla, mover el repollo de la olla al refrigerador, mover una papa al refrigerador, recoger la botella del fregadero, colocar la botella en el fregadero, recoger la tomate, o colocando el tomate. PIGINet redujo significativamente el tiempo de planificación en un 80 por ciento en escenarios más simples y entre un 20 y un 50 por ciento en escenarios más complejos que tienen secuencias de planificación más largas y menos datos de entrenamiento.
“Los sistemas como PIGINet, que utilizan el poder de los métodos basados en datos para manejar casos familiares de manera eficiente, pero aún pueden recurrir a métodos de planificación de “primeros principios” para verificar sugerencias basadas en el aprendizaje y resolver problemas novedosos, ofrecen lo mejor de ambos. mundos, proporcionando soluciones confiables y eficientes de propósito general para una amplia variedad de problemas”, dice Leslie Pack Kaelbling, profesora del MIT e investigadora principal de CSAIL. El uso de incorporaciones multimodales por parte de PIGINet en la secuencia de entrada permitió una mejor representación y comprensión de relaciones geométricas complejas. El uso de datos de imágenes ayudó al modelo a captar disposiciones espaciales y configuraciones de objetos sin conocer las mallas 3D del objeto para una verificación precisa de colisiones, lo que permitió una rápida toma de decisiones en diferentes entornos.
Uno de los principales desafíos que se enfrentaron durante el desarrollo de PIGINet fue la escasez de buenos datos de capacitación, ya que todos los planes factibles y no factibles deben ser generados por planificadores tradicionales, lo cual, en primer lugar, es lento. Sin embargo, mediante el uso de modelos de lenguaje de visión previamente entrenados y trucos de aumento de datos, el equipo pudo abordar este desafío, mostrando una impresionante reducción del tiempo de planificación no solo en problemas con objetos vistos, sino también en una generalización cero a objetos nunca antes vistos.
“Debido a que el hogar de cada persona es diferente, los robots deberían ser capaces de resolver problemas adaptables en lugar de limitarse a seguir recetas. Nuestra idea clave es permitir que un planificador de tareas de propósito general genere planes de tareas candidatos y utilice un modelo de aprendizaje profundo para seleccionar los prometedores. El resultado es un robot doméstico más eficiente, adaptable y práctico, que puede navegar ágilmente incluso en entornos complejos y dinámicos. Además, las aplicaciones prácticas de PIGINet no se limitan a los hogares”, afirma Zhutian Yang, estudiante de doctorado del MIT CSAIL y autor principal del trabajo. “Nuestro objetivo futuro es perfeccionar aún más PIGINet para sugerir planes de tareas alternativos después de identificar acciones no factibles, lo que acelerará aún más la generación de planes de tareas factibles sin la necesidad de grandes conjuntos de datos para capacitar a un planificador de propósito general desde cero. Creemos que esto podría revolucionar la forma en que se entrenan los robots durante el desarrollo y luego se aplican a los hogares de todos”.
"Este artículo aborda el desafío fundamental en la implementación de un robot de propósito general: cómo aprender de la experiencia pasada para acelerar el proceso de toma de decisiones en entornos no estructurados llenos de una gran cantidad de obstáculos articulados y móviles", dice Beomjoon Kim PhD '20 , profesor asistente en la Escuela de Graduados en IA del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST). “El principal obstáculo en tales problemas es cómo determinar un plan de tareas de alto nivel de manera que exista un plan de movimiento de bajo nivel que realice el plan de alto nivel. Normalmente, hay que oscilar entre el movimiento y la planificación de tareas, lo que provoca una ineficiencia computacional significativa. El trabajo de Zhutian aborda esto utilizando el aprendizaje para eliminar planes de tareas inviables, y es un paso en una dirección prometedora”.
Yang escribió el artículo con el científico investigador de NVIDIA Caelan Garrett SB '15, MEng '15, PhD '21; Tomás Lozano-Pérez y Leslie Kaelbling, profesores del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y miembros de CSAIL; y el director senior de investigación en robótica de NVIDIA y el profesor Dieter Fox de la Universidad de Washington. El equipo contó con el apoyo de AI Singapur y subvenciones de la Fundación Nacional de Ciencias, la Oficina de Investigación Científica de la Fuerza Aérea y la Oficina de Investigación del Ejército. Este proyecto se llevó a cabo parcialmente mientras Yang era pasante en NVIDIA Research. Su investigación se presentará en julio en la conferencia Robótica: Ciencia y Sistemas.
Artículo anterior Artículo siguiente