ChatPaper.aiChatPaper

Linguaggio a Ricompense per la Sintesi di Abilità Robotiche

Language to Rewards for Robotic Skill Synthesis

June 14, 2023
Autori: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato progressi entusiasmanti nell'acquisizione di nuove e diverse capacità attraverso l'apprendimento contestuale, che spazia dal ragionamento logico alla scrittura di codice. Anche i ricercatori nel campo della robotica hanno esplorato l'uso degli LLM per potenziare le capacità di controllo robotico. Tuttavia, poiché le azioni di basso livello dei robot dipendono dall'hardware e sono sottorappresentate nei corpora di addestramento degli LLM, gli sforzi esistenti nell'applicare gli LLM alla robotica hanno principalmente trattato gli LLM come pianificatori semantici o si sono affidati a primitive di controllo progettate dall'uomo per interfacciarsi con il robot. D'altro canto, le funzioni di ricompensa si sono dimostrate rappresentazioni flessibili che possono essere ottimizzate per le politiche di controllo al fine di raggiungere compiti diversi, mentre la loro ricchezza semantica le rende adatte a essere specificate dagli LLM. In questo lavoro, introduciamo un nuovo paradigma che sfrutta questa intuizione utilizzando gli LLM per definire parametri di ricompensa che possono essere ottimizzati e realizzare una varietà di compiti robotici. Utilizzando la ricompensa come interfaccia intermedia generata dagli LLM, possiamo colmare efficacemente il divario tra istruzioni o correzioni linguistiche di alto livello e azioni robotiche di basso livello. Nel frattempo, combinando questo con un ottimizzatore in tempo reale, MuJoCo MPC, si potenzia un'esperienza interattiva di creazione del comportamento in cui gli utenti possono osservare immediatamente i risultati e fornire feedback al sistema. Per valutare sistematicamente le prestazioni del nostro metodo proposto, abbiamo progettato un totale di 17 compiti per un robot quadrupede simulato e un robot manipolatore abile. Dimostriamo che il nostro metodo proposto affronta con affidabilità il 90% dei compiti progettati, mentre una baseline che utilizza abilità primitive come interfaccia con Code-as-policies raggiunge il 50% dei compiti. Abbiamo ulteriormente validato il nostro metodo su un braccio robotico reale, dove abilità di manipolazione complesse come la spinta non prensile emergono attraverso il nostro sistema interattivo.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
PDF120February 7, 2026