ChatPaper.aiChatPaper

Langage vers Récompenses pour la Synthèse de Compétences Robotiques

Language to Rewards for Robotic Skill Synthesis

June 14, 2023
Auteurs: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des progrès prometteurs dans l'acquisition de nouvelles capacités variées grâce à l'apprentissage en contexte, allant du raisonnement logique à l'écriture de code. Les chercheurs en robotique ont également exploré l'utilisation des LLMs pour améliorer les capacités de contrôle des robots. Cependant, étant donné que les actions de bas niveau des robots dépendent du matériel et sont sous-représentées dans les corpus d'entraînement des LLMs, les efforts existants pour appliquer les LLMs à la robotique ont largement traité les LLMs comme des planificateurs sémantiques ou ont reposé sur des primitives de contrôle conçues par l'homme pour interagir avec le robot. D'un autre côté, les fonctions de récompense se sont révélées être des représentations flexibles qui peuvent être optimisées pour des politiques de contrôle afin d'accomplir des tâches variées, tandis que leur richesse sémantique les rend adaptées à une spécification par les LLMs. Dans ce travail, nous introduisons un nouveau paradigme qui exploite cette réalisation en utilisant les LLMs pour définir des paramètres de récompense qui peuvent être optimisés et accomplir une variété de tâches robotiques. En utilisant la récompense comme interface intermédiaire générée par les LLMs, nous pouvons efficacement combler le fossé entre les instructions ou corrections de haut niveau en langage naturel et les actions de bas niveau des robots. Parallèlement, en combinant cela avec un optimiseur en temps réel, MuJoCo MPC, nous permettons une expérience interactive de création de comportements où les utilisateurs peuvent immédiatement observer les résultats et fournir des retours au système. Pour évaluer systématiquement les performances de notre méthode proposée, nous avons conçu un total de 17 tâches pour un robot quadrupède simulé et un robot manipulateur dextre. Nous démontrons que notre méthode proposée résout de manière fiable 90 % des tâches conçues, tandis qu'une base de référence utilisant des compétences primitives comme interface avec Code-as-policies atteint 50 % des tâches. Nous avons en outre validé notre méthode sur un bras robotique réel où des compétences de manipulation complexes telles que la poussée non préhensile émergent grâce à notre système interactif.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
PDF120December 15, 2024