ChatPaper.aiChatPaper

행동 복제 정책 미세 조정을 위한 잔여 오프-폴리시 강화 학습

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

September 23, 2025
저자: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI

초록

최근 행동 복제(Behavior Cloning, BC) 기술의 발전으로 인상적인 시각운제어 정책이 가능해졌다. 그러나 이러한 접근 방식은 인간 시연의 품질, 데이터 수집에 필요한 수작업, 그리고 오프라인 데이터 증가에 따른 한계에 직면해 있다. 반면, 강화 학습(Reinforcement Learning, RL)은 환경과의 자율적 상호작용을 통해 에이전트를 훈련시키며 다양한 분야에서 주목할 만한 성과를 보여주고 있다. 하지만 실제 로봇에서 RL 정책을 직접 훈련하는 것은 샘플 효율성, 안전 문제, 그리고 장기간 작업에서의 희소 보상 학습의 어려움, 특히 높은 자유도(DoF) 시스템에서의 어려움으로 인해 여전히 도전적인 과제로 남아 있다. 본 연구에서는 잔차 학습(residual learning) 프레임워크를 통해 BC와 RL의 장점을 결합한 방법을 제안한다. 우리의 접근 방식은 BC 정책을 블랙박스 기반으로 활용하고, 샘플 효율적인 오프-정책(off-policy) RL을 통해 경량의 단계별 잔차 보정을 학습한다. 우리의 방법은 희소한 이진 보상 신호만으로도 충분하며, 시뮬레이션과 실제 환경 모두에서 높은 자유도(DoF) 시스템의 조작 정책을 효과적으로 개선할 수 있음을 입증한다. 특히, 우리는 지식의 범위 내에서, 민첩한 손을 가진 휴머노이드 로봇에서의 첫 번째 성공적인 실제 RL 훈련 사례를 보여준다. 우리의 결과는 다양한 시각 기반 작업에서 최첨단 성능을 보여주며, 실제 세계에 RL을 적용하기 위한 실용적인 경로를 제시한다. 프로젝트 웹사이트: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor control policies. However, these approaches are limited by the quality of human demonstrations, the manual effort required for data collection, and the diminishing returns from increasing offline data. In comparison, reinforcement learning (RL) trains an agent through autonomous interaction with the environment and has shown remarkable success in various domains. Still, training RL policies directly on real-world robots remains challenging due to sample inefficiency, safety concerns, and the difficulty of learning from sparse rewards for long-horizon tasks, especially for high-degree-of-freedom (DoF) systems. We present a recipe that combines the benefits of BC and RL through a residual learning framework. Our approach leverages BC policies as black-box bases and learns lightweight per-step residual corrections via sample-efficient off-policy RL. We demonstrate that our method requires only sparse binary reward signals and can effectively improve manipulation policies on high-degree-of-freedom (DoF) systems in both simulation and the real world. In particular, we demonstrate, to the best of our knowledge, the first successful real-world RL training on a humanoid robot with dexterous hands. Our results demonstrate state-of-the-art performance in various vision-based tasks, pointing towards a practical pathway for deploying RL in the real world. Project website: https://residual-offpolicy-rl.github.io
PDF162September 26, 2025