RL Residual para Ajuste Fino de Políticas de Clonagem de Comportamento
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
September 23, 2025
Autores: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI
Resumo
Os avanços recentes na clonagem de comportamento (BC) permitiram políticas impressionantes de controle visuomotor. No entanto, essas abordagens são limitadas pela qualidade das demonstrações humanas, pelo esforço manual necessário para a coleta de dados e pelos retornos decrescentes do aumento de dados offline. Em comparação, o aprendizado por reforço (RL) treina um agente por meio da interação autônoma com o ambiente e tem mostrado sucesso notável em vários domínios. Ainda assim, o treinamento de políticas de RL diretamente em robôs do mundo real continua desafiador devido à ineficiência de amostras, preocupações de segurança e a dificuldade de aprender a partir de recompensas esparsas para tarefas de longo horizonte, especialmente para sistemas com alto grau de liberdade (DoF). Apresentamos uma receita que combina os benefícios do BC e do RL por meio de uma estrutura de aprendizado residual. Nossa abordagem aproveita as políticas de BC como bases de caixa preta e aprende correções residuais leves por etapa por meio de RL eficiente em amostras fora da política. Demonstramos que nosso método requer apenas sinais de recompensa binária esparsa e pode efetivamente melhorar as políticas de manipulação em sistemas com alto grau de liberdade (DoF) tanto em simulação quanto no mundo real. Em particular, demonstramos, até onde sabemos, o primeiro treinamento de RL bem-sucedido no mundo real em um robô humanóide com mãos hábeis. Nossos resultados demonstram desempenho de ponta em várias tarefas baseadas em visão, apontando para um caminho prático para a implantação do RL no mundo real. Site do projeto: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots remains challenging due to
sample inefficiency, safety concerns, and the difficulty of learning from
sparse rewards for long-horizon tasks, especially for high-degree-of-freedom
(DoF) systems. We present a recipe that combines the benefits of BC and RL
through a residual learning framework. Our approach leverages BC policies as
black-box bases and learns lightweight per-step residual corrections via
sample-efficient off-policy RL. We demonstrate that our method requires only
sparse binary reward signals and can effectively improve manipulation policies
on high-degree-of-freedom (DoF) systems in both simulation and the real world.
In particular, we demonstrate, to the best of our knowledge, the first
successful real-world RL training on a humanoid robot with dexterous hands. Our
results demonstrate state-of-the-art performance in various vision-based tasks,
pointing towards a practical pathway for deploying RL in the real world.
Project website: https://residual-offpolicy-rl.github.io