ChatPaper.aiChatPaper

Linguagem para Recompensas na Síntese de Habilidades Robóticas

Language to Rewards for Robotic Skill Synthesis

June 14, 2023
Autores: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado progresso empolgante na aquisição de diversas novas capacidades por meio de aprendizado em contexto, variando de raciocínio lógico à escrita de código. Pesquisadores em robótica também exploraram o uso de LLMs para avançar as capacidades de controle robótico. No entanto, como as ações de baixo nível dos robôs dependem de hardware e são sub-representadas nos corpora de treinamento de LLMs, os esforços existentes na aplicação de LLMs à robótica têm tratado os LLMs principalmente como planejadores semânticos ou dependido de primitivas de controle projetadas por humanos para interagir com o robô. Por outro lado, funções de recompensa são representações flexíveis que podem ser otimizadas para políticas de controle a fim de realizar diversas tarefas, enquanto sua riqueza semântica as torna adequadas para serem especificadas por LLMs. Neste trabalho, introduzimos um novo paradigma que aproveita essa percepção, utilizando LLMs para definir parâmetros de recompensa que podem ser otimizados e realizar uma variedade de tarefas robóticas. Usando a recompensa como a interface intermediária gerada por LLMs, podemos efetivamente preencher a lacuna entre instruções ou correções de linguagem de alto nível e ações de baixo nível do robô. Enquanto isso, a combinação disso com um otimizador em tempo real, o MuJoCo MPC, capacita uma experiência interativa de criação de comportamentos, onde os usuários podem observar imediatamente os resultados e fornecer feedback ao sistema. Para avaliar sistematicamente o desempenho do nosso método proposto, projetamos um total de 17 tarefas para um robô quadrúpede simulado e um robô manipulador dextro. Demonstramos que o nosso método proposto resolve com confiabilidade 90% das tarefas projetadas, enquanto uma linha de base que usa habilidades primitivas como interface com "Código-como-políticas" alcança 50% das tarefas. Validamos ainda mais o nosso método em um braço robótico real, onde habilidades complexas de manipulação, como empurrar sem preensão, emergem por meio do nosso sistema interativo.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
PDF120February 7, 2026