ChatPaper.aiChatPaper

ロボ・ドーパミン:高精度ロボットマニピュレーションのための汎用プロセス報酬モデリング

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

December 29, 2025
著者: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI

要旨

実世界ロボティクスへの強化学習(RL)適用における主な障壁は、効果的な報酬関数の設計である。学習ベースのプロセス報酬モデル(PRM)は近年有望な方向性であるが、しばしば二つの根本的限界に妨げられている。すなわち、報酬モデルがステップを意識した理解を欠き、単一視点の知覚に依存するため、細かな操作の進捗を信頼性高く評価できない点、および報酬形成の手続きが理論的に不健全で、方策最適化を誤った方向に導く意味論的トラップを誘発しがちな点である。これらの問題に対処するため、我々はマルチビュー入力から汎用的でステップを意識したプロセス報酬モデルを学習する新しい報酬モデリング手法、Dopamine-Rewardを提案する。その中核は、3,400時間以上に及ぶ大規模データセットで学習された一般報酬モデル(GRM)であり、これは構造的理解のためのステップ単位報酬離散化と、知覚的限界を克服するマルチ視点報酬融合を活用する。Dopamine-Rewardを基盤として、我々は理論的に健全な方策不変報酬形成法を採用した堅牢な方策学習フレームワーク、Dopamine-RLを提案する。この手法により、エージェントは最適方策を変更することなく、効率的な自己改善のための密な報酬を利用でき、意味論的トラップを根本的に回避する。多様なシミュレーションおよび実世界タスクにおける広範な実験により本手法の有効性を検証した。GRMは報酬評価において最先端の精度を達成し、GRM上に構築されたDopamine-RLは方策学習効率を大幅に改善する。例えば、GRMが単一の熟練軌道からワンショットで新規タスクに適応された後、得られた報酬モデルにより、Dopamine-RLは方策をほぼゼロから95%の成功率に、わずか150回のオンラインロールアウト(実ロボットとの相互作用で約1時間に相当)で改善し、タスク間での強力な一般化性能を維持する。プロジェクトウェブサイト: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io
PDF41December 31, 2025