Linguagem para Recompensas na Síntese de Habilidades Robóticas
Language to Rewards for Robotic Skill Synthesis
June 14, 2023
Autores: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado progresso empolgante na aquisição de diversas novas capacidades por meio de aprendizado em contexto, variando de raciocínio lógico à escrita de código. Pesquisadores em robótica também exploraram o uso de LLMs para avançar as capacidades de controle robótico. No entanto, como as ações de baixo nível dos robôs dependem de hardware e são sub-representadas nos corpora de treinamento de LLMs, os esforços existentes na aplicação de LLMs à robótica têm tratado os LLMs principalmente como planejadores semânticos ou dependido de primitivas de controle projetadas por humanos para interagir com o robô. Por outro lado, funções de recompensa são representações flexíveis que podem ser otimizadas para políticas de controle a fim de realizar diversas tarefas, enquanto sua riqueza semântica as torna adequadas para serem especificadas por LLMs. Neste trabalho, introduzimos um novo paradigma que aproveita essa percepção, utilizando LLMs para definir parâmetros de recompensa que podem ser otimizados e realizar uma variedade de tarefas robóticas. Usando a recompensa como a interface intermediária gerada por LLMs, podemos efetivamente preencher a lacuna entre instruções ou correções de linguagem de alto nível e ações de baixo nível do robô. Enquanto isso, a combinação disso com um otimizador em tempo real, o MuJoCo MPC, capacita uma experiência interativa de criação de comportamentos, onde os usuários podem observar imediatamente os resultados e fornecer feedback ao sistema. Para avaliar sistematicamente o desempenho do nosso método proposto, projetamos um total de 17 tarefas para um robô quadrúpede simulado e um robô manipulador dextro. Demonstramos que o nosso método proposto resolve com confiabilidade 90% das tarefas projetadas, enquanto uma linha de base que usa habilidades primitivas como interface com "Código-como-políticas" alcança 50% das tarefas. Validamos ainda mais o nosso método em um braço robótico real, onde habilidades complexas de manipulação, como empurrar sem preensão, emergem por meio do nosso sistema interativo.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring
diverse new capabilities through in-context learning, ranging from logical
reasoning to code-writing. Robotics researchers have also explored using LLMs
to advance the capabilities of robotic control. However, since low-level robot
actions are hardware-dependent and underrepresented in LLM training corpora,
existing efforts in applying LLMs to robotics have largely treated LLMs as
semantic planners or relied on human-engineered control primitives to interface
with the robot. On the other hand, reward functions are shown to be flexible
representations that can be optimized for control policies to achieve diverse
tasks, while their semantic richness makes them suitable to be specified by
LLMs. In this work, we introduce a new paradigm that harnesses this realization
by utilizing LLMs to define reward parameters that can be optimized and
accomplish variety of robotic tasks. Using reward as the intermediate interface
generated by LLMs, we can effectively bridge the gap between high-level
language instructions or corrections to low-level robot actions. Meanwhile,
combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive
behavior creation experience where users can immediately observe the results
and provide feedback to the system. To systematically evaluate the performance
of our proposed method, we designed a total of 17 tasks for a simulated
quadruped robot and a dexterous manipulator robot. We demonstrate that our
proposed method reliably tackles 90% of the designed tasks, while a baseline
using primitive skills as the interface with Code-as-policies achieves 50% of
the tasks. We further validated our method on a real robot arm where complex
manipulation skills such as non-prehensile pushing emerge through our
interactive system.