ChatPaper.aiChatPaper

Residuales Off-Policy RL zur Feinabstimmung von Behavior-Cloning-Policies

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

September 23, 2025
papers.authors: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI

papers.abstract

Jüngste Fortschritte im Bereich des Behavior Cloning (BC) haben beeindruckende visuomotorische Steuerungsstrategien ermöglicht. Diese Ansätze sind jedoch durch die Qualität menschlicher Demonstrationen, den manuellen Aufwand für die Datenerfassung und die abnehmenden Erträge durch zusätzliche Offline-Daten begrenzt. Im Vergleich dazu trainiert Reinforcement Learning (RL) einen Agenten durch autonome Interaktion mit der Umgebung und hat in verschiedenen Domänen bemerkenswerte Erfolge gezeigt. Dennoch bleibt das direkte Training von RL-Strategien auf realen Robotern aufgrund von Ineffizienz bei der Stichprobenerfassung, Sicherheitsbedenken und der Schwierigkeit, aus spärlichen Belohnungen für langfristige Aufgaben zu lernen, insbesondere bei Systemen mit vielen Freiheitsgraden (DoF), eine Herausforderung. Wir präsentieren eine Methode, die die Vorteile von BC und RL durch ein Residual-Learning-Framework kombiniert. Unser Ansatz nutzt BC-Strategien als Blackbox-Basis und lernt leichte schrittweise Residualkorrekturen durch effizientes Off-Policy RL. Wir zeigen, dass unsere Methode nur spärliche binäre Belohnungssignale benötigt und Manipulationsstrategien auf Systemen mit vielen Freiheitsgraden (DoF) sowohl in der Simulation als auch in der realen Welt effektiv verbessern kann. Insbesondere demonstrieren wir, unseres Wissens nach, das erste erfolgreiche RL-Training in der realen Welt auf einem humanoiden Roboter mit geschickten Händen. Unsere Ergebnisse zeigen Spitzenleistungen in verschiedenen visuellen Aufgaben und weisen auf einen praktischen Weg zur Implementierung von RL in der realen Welt hin. Projektwebsite: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor control policies. However, these approaches are limited by the quality of human demonstrations, the manual effort required for data collection, and the diminishing returns from increasing offline data. In comparison, reinforcement learning (RL) trains an agent through autonomous interaction with the environment and has shown remarkable success in various domains. Still, training RL policies directly on real-world robots remains challenging due to sample inefficiency, safety concerns, and the difficulty of learning from sparse rewards for long-horizon tasks, especially for high-degree-of-freedom (DoF) systems. We present a recipe that combines the benefits of BC and RL through a residual learning framework. Our approach leverages BC policies as black-box bases and learns lightweight per-step residual corrections via sample-efficient off-policy RL. We demonstrate that our method requires only sparse binary reward signals and can effectively improve manipulation policies on high-degree-of-freedom (DoF) systems in both simulation and the real world. In particular, we demonstrate, to the best of our knowledge, the first successful real-world RL training on a humanoid robot with dexterous hands. Our results demonstrate state-of-the-art performance in various vision-based tasks, pointing towards a practical pathway for deploying RL in the real world. Project website: https://residual-offpolicy-rl.github.io
PDF162September 26, 2025