ChatPaper.aiChatPaper

Taal naar Beloningen voor Robotische Vaardigheidssynthese

Language to Rewards for Robotic Skill Synthesis

June 14, 2023
Auteurs: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) hebben opwindende vooruitgang geboekt in het verwerven van diverse nieuwe vaardigheden door in-context leren, variërend van logisch redeneren tot het schrijven van code. Onderzoekers in de robotica hebben ook verkend hoe LLMs kunnen worden gebruikt om de mogelijkheden van robotbesturing te verbeteren. Echter, aangezien laagniveau robotacties hardwareafhankelijk zijn en ondervertegenwoordigd zijn in de trainingscorpora van LLMs, hebben bestaande inspanningen om LLMs toe te passen in de robotica LLMs grotendeels behandeld als semantische planners of vertrouwd op door mensen ontworpen besturingsprimitieven om te communiceren met de robot. Aan de andere kant zijn beloningsfuncties flexibele representaties gebleken die kunnen worden geoptimaliseerd voor besturingsbeleid om diverse taken te bereiken, terwijl hun semantische rijkdom hen geschikt maakt om te worden gespecificeerd door LLMs. In dit werk introduceren we een nieuw paradigma dat deze realisatie benut door LLMs te gebruiken om beloningsparameters te definiëren die kunnen worden geoptimaliseerd en een verscheidenheid aan robotische taken kunnen volbrengen. Door beloning te gebruiken als de tussenliggende interface gegenereerd door LLMs, kunnen we effectief de kloof overbruggen tussen hoogtaal instructies of correcties en laagniveau robotacties. Tegelijkertijd maakt de combinatie hiervan met een real-time optimizer, MuJoCo MPC, een interactieve ervaring mogelijk voor het creëren van gedrag waarbij gebruikers direct de resultaten kunnen observeren en feedback kunnen geven aan het systeem. Om de prestaties van onze voorgestelde methode systematisch te evalueren, hebben we in totaal 17 taken ontworpen voor een gesimuleerde viervoetige robot en een behendige manipulatorrobot. We demonstreren dat onze voorgestelde methode betrouwbaar 90% van de ontworpen taken aanpakt, terwijl een baseline die primitieve vaardigheden gebruikt als de interface met Code-as-policies 50% van de taken bereikt. We hebben onze methode verder gevalideerd op een echte robotarm waar complexe manipulatievaardigheden zoals niet-grijpend duwen ontstaan door ons interactieve systeem.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
PDF120February 7, 2026