Escalando y Destilando: Adquisición de Habilidades Robóticas Guiada por Lenguaje

Resumen

Presentamos un marco para la adquisición de habilidades robóticas que 1) escala eficientemente la generación de datos etiquetados con lenguaje para robots y 2) destila efectivamente estos datos en una política visuo-motora robusta y condicionada por lenguaje para múltiples tareas. Para (1), utilizamos un modelo de lenguaje grande (LLM) para guiar la planificación de alto nivel, y planificadores robóticos basados en muestreo (por ejemplo, muestreadores de movimiento o agarre) para generar trayectorias de manipulación diversas y ricas. Para robustecer este proceso de recolección de datos, el LLM también infiere un fragmento de código para la condición de éxito de cada tarea, permitiendo simultáneamente que el proceso de recolección detecte fallos y reintente, así como el etiquetado automático de trayectorias con éxito/fracaso. Para (2), extendemos el enfoque de clonación de comportamiento de una sola tarea basado en políticas de difusión a entornos de múltiples tareas con condicionamiento por lenguaje. Finalmente, proponemos un nuevo punto de referencia para múltiples tareas con 18 tareas en cinco dominios para evaluar comportamientos de horizonte largo, razonamiento de sentido común, uso de herramientas y física intuitiva. Descubrimos que nuestra política destilada aprendió exitosamente el comportamiento robusto de reintento de su política de recolección de datos, mientras mejoraba las tasas de éxito absoluto en un 34.8% en promedio en los cinco dominios. El punto de referencia, el código y los resultados cualitativos están disponibles en nuestro sitio web https://www.cs.columbia.edu/~huy/scalingup/.

English

We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/

Escalando y Destilando: Adquisición de Habilidades Robóticas Guiada por Lenguaje

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

Resumen

Support