로봇 도파민: 고정밀 로봇 매니퓰레이션을 위한 일반적 프로세스 보상 모델링
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
December 29, 2025
저자: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI
초록
강화학습을 실제 로봇 공학에 적용하는 데 있어 주요 장애물은 효과적인 보상 함수 설계입니다. 최근 학습 기반 프로세스 보상 모델(PRM)이 유망한 방향으로 제시되고 있지만, 두 가지 근본적 한계에 직면해 있습니다. 첫째, 보상 모델이 단계 인식 이해 능력이 부족하고 단일 시점 인식에 의존하여 미세 조작 진행 상황에 대한 신뢰할 수 없는 평가를 내놓으며, 둘째, 보상 형성 절차가 이론적으로 타당하지 않아 정책 최적화를 오도하는 의미론적 함정을 유발하는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 다중 시점 입력으로부터 일반 목적의 단계 인식 프로세스 보상 모델을 학습하는 새로운 보상 모델링 방법인 도파민-보상(Dopamine-Reward)을 소개합니다. 그 핵심에는 3,400시간 이상의 방대한 데이터셋으로 훈련된 우리의 일반 보상 모델(GRM)이 있으며, 이는 구조적 이해를 위한 단계별 보상 이산화와 인지적 한계를 극복하기 위한 다중 관점 보상 융합을 활용합니다. 도파민-보상을 기반으로 우리는 이론적으로 타당한 정책-불변 보상 형성 방법을 사용하는 강력한 정책 학습 프레임워크인 도파민-RL(Dopamine-RL)을 제안합니다. 이 방법은 에이전트가 최적 정책을 변경하지 않고도 효율적인 자기 개선을 위해 조밀한 보상을 활용할 수 있게 하여 의미론적 함정을 근본적으로 회피합니다. 다양한 시뮬레이션 및 실제 과제에 대한 광범위한 실험을 통해 우리의 접근 방식을 검증했습니다. GRM은 보상 평가에서 최첨단 정확도를 달성했으며, GRM을 기반으로 구축된 도파민-RL은 정책 학습 효율성을 크게 향상시켰습니다. 예를 들어, 단일 전문가 궤적으로부터 새로운 과제에 대해 원샷 방식으로 GRM이 적용된 후, 결과적인 보상 모델은 도파민-RL이 단 150회의 온라인 롤아웃(실제 로봇 상호작용 약 1시간)으로 정책을 거의 0%에서 95% 성공률로 향상시키면서도 과제 간 강력한 일반화 능력을 유지할 수 있게 합니다. 프로젝트 웹사이트: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io