Язык в награды для синтеза роботизированных навыков
Language to Rewards for Robotic Skill Synthesis
June 14, 2023
Авторы: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющий прогресс в освоении разнообразных новых способностей благодаря обучению в контексте, начиная от логического рассуждения и заканчивая написанием кода. Исследователи в области робототехники также изучали использование LLM для расширения возможностей управления роботами. Однако, поскольку низкоуровневые действия роботов зависят от аппаратного обеспечения и недостаточно представлены в обучающих корпусах LLM, существующие подходы к применению LLM в робототехнике в основном рассматривают LLM как семантические планировщики или полагаются на заранее разработанные примитивы управления для взаимодействия с роботом. С другой стороны, функции вознаграждения демонстрируют гибкость в представлении, что позволяет оптимизировать их для создания политик управления, способных выполнять разнообразные задачи, а их семантическая насыщенность делает их подходящими для спецификации с помощью LLM. В данной работе мы представляем новую парадигму, которая использует это понимание, применяя LLM для определения параметров вознаграждения, которые могут быть оптимизированы и использованы для выполнения различных задач робототехники. Используя вознаграждение в качестве промежуточного интерфейса, генерируемого LLM, мы эффективно устраняем разрыв между высокоуровневыми языковыми инструкциями или корректировками и низкоуровневыми действиями робота. В то же время, сочетание этого с оптимизатором в реальном времени, MuJoCo MPC, обеспечивает интерактивный опыт создания поведения, где пользователи могут сразу наблюдать результаты и предоставлять обратную связь системе. Для систематической оценки производительности предложенного метода мы разработали 17 задач для симулированного четвероногого робота и манипулятора с высокой степенью свободы. Мы показываем, что наш метод успешно справляется с 90% поставленных задач, в то время как базовый подход, использующий примитивные навыки в качестве интерфейса с Code-as-policies, достигает успеха в 50% случаев. Мы также подтвердили эффективность нашего метода на реальном роботе-манипуляторе, где сложные навыки манипуляции, такие как нехватательное толкание, возникают благодаря нашей интерактивной системе.
English
Large language models (LLMs) have demonstrated exciting progress in acquiring
diverse new capabilities through in-context learning, ranging from logical
reasoning to code-writing. Robotics researchers have also explored using LLMs
to advance the capabilities of robotic control. However, since low-level robot
actions are hardware-dependent and underrepresented in LLM training corpora,
existing efforts in applying LLMs to robotics have largely treated LLMs as
semantic planners or relied on human-engineered control primitives to interface
with the robot. On the other hand, reward functions are shown to be flexible
representations that can be optimized for control policies to achieve diverse
tasks, while their semantic richness makes them suitable to be specified by
LLMs. In this work, we introduce a new paradigm that harnesses this realization
by utilizing LLMs to define reward parameters that can be optimized and
accomplish variety of robotic tasks. Using reward as the intermediate interface
generated by LLMs, we can effectively bridge the gap between high-level
language instructions or corrections to low-level robot actions. Meanwhile,
combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive
behavior creation experience where users can immediately observe the results
and provide feedback to the system. To systematically evaluate the performance
of our proposed method, we designed a total of 17 tasks for a simulated
quadruped robot and a dexterous manipulator robot. We demonstrate that our
proposed method reliably tackles 90% of the designed tasks, while a baseline
using primitive skills as the interface with Code-as-policies achieves 50% of
the tasks. We further validated our method on a real robot arm where complex
manipulation skills such as non-prehensile pushing emerge through our
interactive system.