Residueel Off-Policy RL voor het Finetunen van Behavior Cloning Beleidsregels
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
September 23, 2025
Auteurs: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI
Samenvatting
Recente vooruitgang in gedragsklonering (BC) heeft indrukwekkende visuomotorische controlebeleidsregels mogelijk gemaakt. Deze benaderingen worden echter beperkt door de kwaliteit van menselijke demonstraties, de handmatige inspanning die nodig is voor gegevensverzameling en de afnemende meeropbrengsten van toenemende offline gegevens. In vergelijking traint reinforcement learning (RL) een agent door autonome interactie met de omgeving en heeft het opmerkelijke successen geboekt in verschillende domeinen. Toch blijft het trainen van RL-beleidsregels direct op robots in de echte wereld uitdagend vanwege de inefficiëntie van steekproeven, veiligheidsproblemen en de moeilijkheid om te leren van schaarse beloningen voor taken met een lange horizon, vooral voor systemen met een hoge mate van vrijheid (DoF). We presenteren een methode die de voordelen van BC en RL combineert via een residu-leerkader. Onze aanpak maakt gebruik van BC-beleidsregels als black-box-basis en leert lichtgewicht per-stap residucorrecties via steekproefefficiënt off-policy RL. We tonen aan dat onze methode slechts schaarse binaire beloningssignalen vereist en effectief manipulatiebeleidsregels kan verbeteren op systemen met een hoge mate van vrijheid (DoF) in zowel simulatie als de echte wereld. In het bijzonder demonstreren we, voor zover wij weten, de eerste succesvolle RL-training in de echte wereld op een humanoïde robot met behendige handen. Onze resultaten tonen state-of-the-art prestaties in verschillende visiegebaseerde taken, wat wijst op een praktische weg voor het inzetten van RL in de echte wereld. Projectwebsite: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots remains challenging due to
sample inefficiency, safety concerns, and the difficulty of learning from
sparse rewards for long-horizon tasks, especially for high-degree-of-freedom
(DoF) systems. We present a recipe that combines the benefits of BC and RL
through a residual learning framework. Our approach leverages BC policies as
black-box bases and learns lightweight per-step residual corrections via
sample-efficient off-policy RL. We demonstrate that our method requires only
sparse binary reward signals and can effectively improve manipulation policies
on high-degree-of-freedom (DoF) systems in both simulation and the real world.
In particular, we demonstrate, to the best of our knowledge, the first
successful real-world RL training on a humanoid robot with dexterous hands. Our
results demonstrate state-of-the-art performance in various vision-based tasks,
pointing towards a practical pathway for deploying RL in the real world.
Project website: https://residual-offpolicy-rl.github.io