ChatPaper.aiChatPaper

Sprache zu Belohnungen für die Synthese robotischer Fähigkeiten

Language to Rewards for Robotic Skill Synthesis

June 14, 2023
Autoren: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben aufregende Fortschritte beim Erwerb vielfältiger neuer Fähigkeiten durch In-Context-Lernen gezeigt, die von logischem Denken bis hin zum Schreiben von Code reichen. Robotikforscher haben ebenfalls untersucht, LLMs zu nutzen, um die Fähigkeiten der Robotersteuerung voranzutreiben. Da jedoch Low-Level-Roboteraktionen hardwareabhängig sind und in den Trainingskorpora von LLMs unterrepräsentiert sind, haben bestehende Bemühungen zur Anwendung von LLMs in der Robotik diese weitgehend als semantische Planer behandelt oder sich auf menschlich entwickelte Steuerungsprimitive verlassen, um mit dem Roboter zu interagieren. Andererseits haben sich Belohnungsfunktionen als flexible Repräsentationen erwiesen, die für Steuerungsrichtlinien optimiert werden können, um verschiedene Aufgaben zu erreichen, während ihre semantische Reichhaltigkeit sie geeignet macht, von LLMs spezifiziert zu werden. In dieser Arbeit führen wir ein neues Paradigma ein, das diese Erkenntnis nutzt, indem LLMs verwendet werden, um Belohnungsparameter zu definieren, die optimiert und eine Vielzahl von Robotikaufgaben bewältigen können. Indem wir die Belohnung als die von LLMs generierte Zwischenschnittstelle verwenden, können wir effektiv die Lücke zwischen High-Level-Sprachanweisungen oder Korrekturen und Low-Level-Roboteraktionen überbrücken. Gleichzeitig ermöglicht die Kombination mit einem Echtzeit-Optimierer, MuJoCo MPC, eine interaktive Verhaltenserstellungserfahrung, bei der Benutzer die Ergebnisse sofort beobachten und dem System Feedback geben können. Um die Leistung unserer vorgeschlagenen Methode systematisch zu bewerten, haben wir insgesamt 17 Aufgaben für einen simulierten Quadruped-Roboter und einen geschickten Manipulatorroboter entworfen. Wir zeigen, dass unsere vorgeschlagene Methode zuverlässig 90 % der entworfenen Aufgaben bewältigt, während eine Baseline, die primitive Fähigkeiten als Schnittstelle mit Code-as-Policies verwendet, 50 % der Aufgaben erreicht. Wir haben unsere Methode weiterhin an einem echten Roboterarm validiert, bei dem komplexe Manipulationsfähigkeiten wie das nicht greifende Schieben durch unser interaktives System entstehen.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
PDF120December 15, 2024