Robo-Dopamin: Allgemeine Prozessbelohnungsmodellierung für hochpräzise robotische Manipulation
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
December 29, 2025
papers.authors: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI
papers.abstract
Das primäre Hindernis für die Anwendung von Reinforcement Learning (RL) in der realen Robotik ist das Design effektiver Belohnungsfunktionen. Obwohl lernbasierte Prozessbelohnungsmodelle (PRMs) jüngst eine vielversprechende Richtung darstellen, werden sie oft durch zwei grundlegende Einschränkungen behindert: Ihren Belohnungsmodellen fehlt ein schrittweises Verständnis und sie stützen sich auf Einzelbildwahrnehmung, was zu unzuverlässigen Bewertungen des feinabgestimmten Manipulationsfortschritts führt; und ihre Belohnungsformungsverfahren sind theoretisch nicht fundiert, was oft eine semantische Falle induziert, welche die Policy-Optimierung fehlleitet. Um diese Probleme zu adressieren, führen wir Dopamine-Reward ein, eine neuartige Belohnungsmodellierungsmethode zum Erlernen eines allgemeinen, schrittbewussten Prozessbelohnungsmodells aus Multi-View-Eingaben. Sein Kernstück ist unser Allgemeines Belohnungsmodell (GRM), das auf einem umfangreichen Datensatz von über 3.400 Stunden trainiert wurde und Schrittweise Belohnungsdiskretisierung für strukturelles Verständnis sowie Multi-Perspektivische Belohnungsfusion zur Überwindung von Wahrnehmungsbeschränkungen nutzt. Aufbauend auf Dopamine-Reward schlagen wir Dopamine-RL vor, einen robusten Policy-Learning-Rahmen, der eine theoretisch fundierte Policy-invariante Belohnungsformungsmethode einsetzt. Diese ermöglicht es dem Agenten, dichte Belohnungen für effiziente Selbstverbesserung zu nutzen, ohne die optimale Policy zu verändern, und vermeidet so grundlegend die semantische Falle. Umfangreiche Experimente in verschiedenen simulierten und realen Aufgaben validieren unseren Ansatz. GRM erreicht state-of-the-art Genauigkeit bei der Belohnungsbewertung, und auf GRM aufbauendes Dopamine-RL verbessert die Policy-Learning-Effizienz signifikant. Wenn GRM beispielsweise im One-Shot-Verfahren aus einer einzelnen Expertentrajektorie an eine neue Aufgabe angepasst wird, ermöglicht das resultierende Belohnungsmodell Dopamine-RL, die Policy von nahezu Null auf 95 % Erfolgsrate mit nur 150 Online-Rollouts (etwa 1 Stunde Echtzeit-Roboterinteraktion) zu verbessern, bei gleichzeitig starker Generalisierungsfähigkeit über Aufgaben hinweg. Projektwebsite: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io