Escalando y Destilando: Adquisición de Habilidades Robóticas Guiada por Lenguaje
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
July 26, 2023
Autores: Huy Ha, Pete Florence, Shuran Song
cs.AI
Resumen
Presentamos un marco para la adquisición de habilidades robóticas que 1) escala eficientemente la generación de datos etiquetados con lenguaje para robots y 2) destila efectivamente estos datos en una política visuo-motora robusta y condicionada por lenguaje para múltiples tareas. Para (1), utilizamos un modelo de lenguaje grande (LLM) para guiar la planificación de alto nivel, y planificadores robóticos basados en muestreo (por ejemplo, muestreadores de movimiento o agarre) para generar trayectorias de manipulación diversas y ricas. Para robustecer este proceso de recolección de datos, el LLM también infiere un fragmento de código para la condición de éxito de cada tarea, permitiendo simultáneamente que el proceso de recolección detecte fallos y reintente, así como el etiquetado automático de trayectorias con éxito/fracaso. Para (2), extendemos el enfoque de clonación de comportamiento de una sola tarea basado en políticas de difusión a entornos de múltiples tareas con condicionamiento por lenguaje. Finalmente, proponemos un nuevo punto de referencia para múltiples tareas con 18 tareas en cinco dominios para evaluar comportamientos de horizonte largo, razonamiento de sentido común, uso de herramientas y física intuitiva. Descubrimos que nuestra política destilada aprendió exitosamente el comportamiento robusto de reintento de su política de recolección de datos, mientras mejoraba las tasas de éxito absoluto en un 34.8% en promedio en los cinco dominios. El punto de referencia, el código y los resultados cualitativos están disponibles en nuestro sitio web https://www.cs.columbia.edu/~huy/scalingup/.
English
We present a framework for robot skill acquisition, which 1) efficiently
scale up data generation of language-labelled robot data and 2) effectively
distills this data down into a robust multi-task language-conditioned
visuo-motor policy. For (1), we use a large language model (LLM) to guide
high-level planning, and sampling-based robot planners (e.g. motion or grasp
samplers) for generating diverse and rich manipulation trajectories. To
robustify this data-collection process, the LLM also infers a code-snippet for
the success condition of each task, simultaneously enabling the data-collection
process to detect failure and retry as well as the automatic labeling of
trajectories with success/failure. For (2), we extend the diffusion policy
single-task behavior-cloning approach to multi-task settings with language
conditioning. Finally, we propose a new multi-task benchmark with 18 tasks
across five domains to test long-horizon behavior, common-sense reasoning,
tool-use, and intuitive physics. We find that our distilled policy successfully
learned the robust retrying behavior in its data collection policy, while
improving absolute success rates by 34.8% on average across five domains. The
benchmark, code, and qualitative results are on our website
https://www.cs.columbia.edu/~huy/scalingup/