Lenguaje a Recompensas para la Síntesis de Habilidades Robóticas
Language to Rewards for Robotic Skill Synthesis
June 14, 2023
Autores: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances emocionantes en la adquisición de diversas capacidades nuevas a través del aprendizaje en contexto, que van desde el razonamiento lógico hasta la escritura de código. Los investigadores en robótica también han explorado el uso de LLMs para mejorar las capacidades de control robótico. Sin embargo, dado que las acciones de bajo nivel de los robots dependen del hardware y están subrepresentadas en los corpus de entrenamiento de los LLMs, los esfuerzos existentes para aplicar LLMs a la robótica han tratado principalmente a los LLMs como planificadores semánticos o han dependido de primitivas de control diseñadas por humanos para interactuar con el robot. Por otro lado, se ha demostrado que las funciones de recompensa son representaciones flexibles que pueden optimizarse para políticas de control con el fin de lograr diversas tareas, mientras que su riqueza semántica las hace adecuadas para ser especificadas por LLMs. En este trabajo, introducimos un nuevo paradigma que aprovecha esta idea utilizando LLMs para definir parámetros de recompensa que pueden optimizarse y lograr una variedad de tareas robóticas. Al utilizar la recompensa como la interfaz intermedia generada por los LLMs, podemos cerrar eficazmente la brecha entre las instrucciones o correcciones de lenguaje de alto nivel y las acciones de bajo nivel del robot. Al mismo tiempo, al combinar esto con un optimizador en tiempo real, MuJoCo MPC, se potencia una experiencia interactiva de creación de comportamientos donde los usuarios pueden observar inmediatamente los resultados y proporcionar retroalimentación al sistema. Para evaluar sistemáticamente el rendimiento de nuestro método propuesto, diseñamos un total de 17 tareas para un robot cuadrúpedo simulado y un robot manipulador diestro. Demostramos que nuestro método propuesto aborda con éxito el 90% de las tareas diseñadas, mientras que una línea base que utiliza habilidades primitivas como interfaz con "Código-como-políticas" logra el 50% de las tareas. Además, validamos nuestro método en un brazo robótico real, donde habilidades de manipulación complejas, como el empuje no prensil, emergen a través de nuestro sistema interactivo.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring
diverse new capabilities through in-context learning, ranging from logical
reasoning to code-writing. Robotics researchers have also explored using LLMs
to advance the capabilities of robotic control. However, since low-level robot
actions are hardware-dependent and underrepresented in LLM training corpora,
existing efforts in applying LLMs to robotics have largely treated LLMs as
semantic planners or relied on human-engineered control primitives to interface
with the robot. On the other hand, reward functions are shown to be flexible
representations that can be optimized for control policies to achieve diverse
tasks, while their semantic richness makes them suitable to be specified by
LLMs. In this work, we introduce a new paradigm that harnesses this realization
by utilizing LLMs to define reward parameters that can be optimized and
accomplish variety of robotic tasks. Using reward as the intermediate interface
generated by LLMs, we can effectively bridge the gap between high-level
language instructions or corrections to low-level robot actions. Meanwhile,
combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive
behavior creation experience where users can immediately observe the results
and provide feedback to the system. To systematically evaluate the performance
of our proposed method, we designed a total of 17 tasks for a simulated
quadruped robot and a dexterous manipulator robot. We demonstrate that our
proposed method reliably tackles 90% of the designed tasks, while a baseline
using primitive skills as the interface with Code-as-policies achieves 50% of
the tasks. We further validated our method on a real robot arm where complex
manipulation skills such as non-prehensile pushing emerge through our
interactive system.