ChatPaper.aiChatPaper

Lenguaje a Recompensas para la Síntesis de Habilidades Robóticas

Language to Rewards for Robotic Skill Synthesis

June 14, 2023
Autores: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances emocionantes en la adquisición de diversas capacidades nuevas a través del aprendizaje en contexto, que van desde el razonamiento lógico hasta la escritura de código. Los investigadores en robótica también han explorado el uso de LLMs para mejorar las capacidades de control robótico. Sin embargo, dado que las acciones de bajo nivel de los robots dependen del hardware y están subrepresentadas en los corpus de entrenamiento de los LLMs, los esfuerzos existentes para aplicar LLMs a la robótica han tratado principalmente a los LLMs como planificadores semánticos o han dependido de primitivas de control diseñadas por humanos para interactuar con el robot. Por otro lado, se ha demostrado que las funciones de recompensa son representaciones flexibles que pueden optimizarse para políticas de control con el fin de lograr diversas tareas, mientras que su riqueza semántica las hace adecuadas para ser especificadas por LLMs. En este trabajo, introducimos un nuevo paradigma que aprovecha esta idea utilizando LLMs para definir parámetros de recompensa que pueden optimizarse y lograr una variedad de tareas robóticas. Al utilizar la recompensa como la interfaz intermedia generada por los LLMs, podemos cerrar eficazmente la brecha entre las instrucciones o correcciones de lenguaje de alto nivel y las acciones de bajo nivel del robot. Al mismo tiempo, al combinar esto con un optimizador en tiempo real, MuJoCo MPC, se potencia una experiencia interactiva de creación de comportamientos donde los usuarios pueden observar inmediatamente los resultados y proporcionar retroalimentación al sistema. Para evaluar sistemáticamente el rendimiento de nuestro método propuesto, diseñamos un total de 17 tareas para un robot cuadrúpedo simulado y un robot manipulador diestro. Demostramos que nuestro método propuesto aborda con éxito el 90% de las tareas diseñadas, mientras que una línea base que utiliza habilidades primitivas como interfaz con "Código-como-políticas" logra el 50% de las tareas. Además, validamos nuestro método en un brazo robótico real, donde habilidades de manipulación complejas, como el empuje no prensil, emergen a través de nuestro sistema interactivo.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
PDF120December 15, 2024