행동 복제 정책 미세 조정을 위한 잔여 오프-폴리시 강화 학습
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
September 23, 2025
저자: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI
초록
최근 행동 복제(Behavior Cloning, BC) 기술의 발전으로 인상적인 시각운제어 정책이 가능해졌다. 그러나 이러한 접근 방식은 인간 시연의 품질, 데이터 수집에 필요한 수작업, 그리고 오프라인 데이터 증가에 따른 한계에 직면해 있다. 반면, 강화 학습(Reinforcement Learning, RL)은 환경과의 자율적 상호작용을 통해 에이전트를 훈련시키며 다양한 분야에서 주목할 만한 성과를 보여주고 있다. 하지만 실제 로봇에서 RL 정책을 직접 훈련하는 것은 샘플 효율성, 안전 문제, 그리고 장기간 작업에서의 희소 보상 학습의 어려움, 특히 높은 자유도(DoF) 시스템에서의 어려움으로 인해 여전히 도전적인 과제로 남아 있다. 본 연구에서는 잔차 학습(residual learning) 프레임워크를 통해 BC와 RL의 장점을 결합한 방법을 제안한다. 우리의 접근 방식은 BC 정책을 블랙박스 기반으로 활용하고, 샘플 효율적인 오프-정책(off-policy) RL을 통해 경량의 단계별 잔차 보정을 학습한다. 우리의 방법은 희소한 이진 보상 신호만으로도 충분하며, 시뮬레이션과 실제 환경 모두에서 높은 자유도(DoF) 시스템의 조작 정책을 효과적으로 개선할 수 있음을 입증한다. 특히, 우리는 지식의 범위 내에서, 민첩한 손을 가진 휴머노이드 로봇에서의 첫 번째 성공적인 실제 RL 훈련 사례를 보여준다. 우리의 결과는 다양한 시각 기반 작업에서 최첨단 성능을 보여주며, 실제 세계에 RL을 적용하기 위한 실용적인 경로를 제시한다. 프로젝트 웹사이트: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots remains challenging due to
sample inefficiency, safety concerns, and the difficulty of learning from
sparse rewards for long-horizon tasks, especially for high-degree-of-freedom
(DoF) systems. We present a recipe that combines the benefits of BC and RL
through a residual learning framework. Our approach leverages BC policies as
black-box bases and learns lightweight per-step residual corrections via
sample-efficient off-policy RL. We demonstrate that our method requires only
sparse binary reward signals and can effectively improve manipulation policies
on high-degree-of-freedom (DoF) systems in both simulation and the real world.
In particular, we demonstrate, to the best of our knowledge, the first
successful real-world RL training on a humanoid robot with dexterous hands. Our
results demonstrate state-of-the-art performance in various vision-based tasks,
pointing towards a practical pathway for deploying RL in the real world.
Project website: https://residual-offpolicy-rl.github.io