Taal naar Beloningen voor Robotische Vaardigheidssynthese
Language to Rewards for Robotic Skill Synthesis
June 14, 2023
Auteurs: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben opwindende vooruitgang geboekt in het verwerven van diverse nieuwe vaardigheden door in-context leren, variërend van logisch redeneren tot het schrijven van code. Onderzoekers in de robotica hebben ook verkend hoe LLMs kunnen worden gebruikt om de mogelijkheden van robotbesturing te verbeteren. Echter, aangezien laagniveau robotacties hardwareafhankelijk zijn en ondervertegenwoordigd zijn in de trainingscorpora van LLMs, hebben bestaande inspanningen om LLMs toe te passen in de robotica LLMs grotendeels behandeld als semantische planners of vertrouwd op door mensen ontworpen besturingsprimitieven om te communiceren met de robot. Aan de andere kant zijn beloningsfuncties flexibele representaties gebleken die kunnen worden geoptimaliseerd voor besturingsbeleid om diverse taken te bereiken, terwijl hun semantische rijkdom hen geschikt maakt om te worden gespecificeerd door LLMs. In dit werk introduceren we een nieuw paradigma dat deze realisatie benut door LLMs te gebruiken om beloningsparameters te definiëren die kunnen worden geoptimaliseerd en een verscheidenheid aan robotische taken kunnen volbrengen. Door beloning te gebruiken als de tussenliggende interface gegenereerd door LLMs, kunnen we effectief de kloof overbruggen tussen hoogtaal instructies of correcties en laagniveau robotacties. Tegelijkertijd maakt de combinatie hiervan met een real-time optimizer, MuJoCo MPC, een interactieve ervaring mogelijk voor het creëren van gedrag waarbij gebruikers direct de resultaten kunnen observeren en feedback kunnen geven aan het systeem. Om de prestaties van onze voorgestelde methode systematisch te evalueren, hebben we in totaal 17 taken ontworpen voor een gesimuleerde viervoetige robot en een behendige manipulatorrobot. We demonstreren dat onze voorgestelde methode betrouwbaar 90% van de ontworpen taken aanpakt, terwijl een baseline die primitieve vaardigheden gebruikt als de interface met Code-as-policies 50% van de taken bereikt. We hebben onze methode verder gevalideerd op een echte robotarm waar complexe manipulatievaardigheden zoals niet-grijpend duwen ontstaan door ons interactieve systeem.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring
diverse new capabilities through in-context learning, ranging from logical
reasoning to code-writing. Robotics researchers have also explored using LLMs
to advance the capabilities of robotic control. However, since low-level robot
actions are hardware-dependent and underrepresented in LLM training corpora,
existing efforts in applying LLMs to robotics have largely treated LLMs as
semantic planners or relied on human-engineered control primitives to interface
with the robot. On the other hand, reward functions are shown to be flexible
representations that can be optimized for control policies to achieve diverse
tasks, while their semantic richness makes them suitable to be specified by
LLMs. In this work, we introduce a new paradigm that harnesses this realization
by utilizing LLMs to define reward parameters that can be optimized and
accomplish variety of robotic tasks. Using reward as the intermediate interface
generated by LLMs, we can effectively bridge the gap between high-level
language instructions or corrections to low-level robot actions. Meanwhile,
combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive
behavior creation experience where users can immediately observe the results
and provide feedback to the system. To systematically evaluate the performance
of our proposed method, we designed a total of 17 tasks for a simulated
quadruped robot and a dexterous manipulator robot. We demonstrate that our
proposed method reliably tackles 90% of the designed tasks, while a baseline
using primitive skills as the interface with Code-as-policies achieves 50% of
the tasks. We further validated our method on a real robot arm where complex
manipulation skills such as non-prehensile pushing emerge through our
interactive system.