Остаточное обучение с подкреплением вне стратегии для тонкой настройки политик клонирования поведения
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
September 23, 2025
Авторы: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI
Аннотация
Недавние достижения в области клонирования поведения (BC) позволили создать впечатляющие политики визуомоторного управления. Однако эти подходы ограничены качеством человеческих демонстраций, трудоемкостью сбора данных и снижением отдачи от увеличения объема оффлайн-данных. В сравнении, обучение с подкреплением (RL) тренирует агента через автономное взаимодействие с окружающей средой и показало замечательные успехи в различных областях. Тем не менее, обучение RL-политик непосредственно на реальных роботах остается сложной задачей из-за низкой эффективности использования данных, проблем безопасности и трудностей обучения на основе редких наград для задач с длительным горизонтом, особенно для систем с высокой степенью свободы (DoF). Мы представляем метод, который объединяет преимущества BC и RL через фреймворк остаточного обучения. Наш подход использует BC-политики как черные ящики и обучает легковесные пошаговые остаточные коррекции с помощью эффективного оффполиси RL. Мы демонстрируем, что наш метод требует только редких бинарных сигналов награды и может эффективно улучшать политики манипуляции на системах с высокой степенью свободы (DoF) как в симуляции, так и в реальном мире. В частности, мы демонстрируем, насколько нам известно, первый успешный тренинг RL в реальном мире на гуманоидном роботе с ловкими руками. Наши результаты показывают передовую производительность в различных задачах, основанных на зрении, указывая на практический путь для внедрения RL в реальном мире. Сайт проекта: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots remains challenging due to
sample inefficiency, safety concerns, and the difficulty of learning from
sparse rewards for long-horizon tasks, especially for high-degree-of-freedom
(DoF) systems. We present a recipe that combines the benefits of BC and RL
through a residual learning framework. Our approach leverages BC policies as
black-box bases and learns lightweight per-step residual corrections via
sample-efficient off-policy RL. We demonstrate that our method requires only
sparse binary reward signals and can effectively improve manipulation policies
on high-degree-of-freedom (DoF) systems in both simulation and the real world.
In particular, we demonstrate, to the best of our knowledge, the first
successful real-world RL training on a humanoid robot with dexterous hands. Our
results demonstrate state-of-the-art performance in various vision-based tasks,
pointing towards a practical pathway for deploying RL in the real world.
Project website: https://residual-offpolicy-rl.github.io