RL Residual fuera de la política para el ajuste fino de políticas de clonación de comportamiento
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
September 23, 2025
Autores: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI
Resumen
Los avances recientes en la clonación de comportamiento (BC, por sus siglas en inglés) han permitido el desarrollo de políticas de control visuomotor impresionantes. Sin embargo, estos enfoques están limitados por la calidad de las demostraciones humanas, el esfuerzo manual requerido para la recopilación de datos y los rendimientos decrecientes al aumentar los datos fuera de línea. En comparación, el aprendizaje por refuerzo (RL, por sus siglas en inglés) entrena a un agente mediante la interacción autónoma con el entorno y ha demostrado un éxito notable en diversos dominios. Aún así, el entrenamiento de políticas de RL directamente en robots del mundo real sigue siendo un desafío debido a la ineficiencia en el muestreo, las preocupaciones de seguridad y la dificultad de aprender a partir de recompensas escasas para tareas de largo horizonte, especialmente en sistemas con un alto grado de libertad (DoF, por sus siglas en inglés). Presentamos una metodología que combina los beneficios de BC y RL a través de un marco de aprendizaje residual. Nuestro enfoque aprovecha las políticas de BC como bases de caja negra y aprende correcciones residuales ligeras por paso mediante RL fuera de política eficiente en muestreo. Demostramos que nuestro método requiere solo señales de recompensa binarias escasas y puede mejorar eficazmente las políticas de manipulación en sistemas de alto grado de libertad (DoF) tanto en simulación como en el mundo real. En particular, demostramos, hasta donde sabemos, el primer entrenamiento exitoso de RL en el mundo real en un robot humanoide con manos diestras. Nuestros resultados muestran un rendimiento de vanguardia en diversas tareas basadas en visión, señalando un camino práctico para implementar RL en el mundo real. Sitio web del proyecto: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots remains challenging due to
sample inefficiency, safety concerns, and the difficulty of learning from
sparse rewards for long-horizon tasks, especially for high-degree-of-freedom
(DoF) systems. We present a recipe that combines the benefits of BC and RL
through a residual learning framework. Our approach leverages BC policies as
black-box bases and learns lightweight per-step residual corrections via
sample-efficient off-policy RL. We demonstrate that our method requires only
sparse binary reward signals and can effectively improve manipulation policies
on high-degree-of-freedom (DoF) systems in both simulation and the real world.
In particular, we demonstrate, to the best of our knowledge, the first
successful real-world RL training on a humanoid robot with dexterous hands. Our
results demonstrate state-of-the-art performance in various vision-based tasks,
pointing towards a practical pathway for deploying RL in the real world.
Project website: https://residual-offpolicy-rl.github.io