ChatPaper.aiChatPaper

Robo-Dopamine: Algemene Procesbeloningsmodellering voor Hoogprecisie Robotmanipulatie

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

December 29, 2025
Auteurs: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI

Samenvatting

De primaire belemmering voor het toepassen van reinforcement learning (RL) op robotica in de echte wereld is het ontwerpen van effectieve beloningsfuncties. Hoewel op leren gebaseerde Process Reward Models (PRM's) recentelijk een veelbelovende richting zijn, worden ze vaak belemmerd door twee fundamentele beperkingen: hun beloningsmodellen missen stapbewust begrip en vertrouwen op perceptie vanuit één gezichtspunt, wat leidt tot onbetrouwbare beoordelingen van fijnmazige manipulatievooruitgang; en hun beloningsvormingsprocedures zijn theoretisch ongegrond, wat vaak een semantische val induceert die beleidsoptimalisatie misleidt. Om deze problemen aan te pakken, introduceren we Dopamine-Reward, een nieuwe methode voor beloningsmodellering om een algemeen, stapbewust procesbeloningsmodel te leren vanuit meerdere gezichtspunten. De kern ervan is ons General Reward Model (GRM), getraind op een enorme dataset van meer dan 3.400 uur, dat gebruikmaakt van Step-wise Reward Discretization voor structureel begrip en Multi-Perspective Reward Fusion om perceptuele beperkingen te overwinnen. Voortbouwend op Dopamine-Reward stellen we Dopamine-RL voor, een robuust raamwerk voor beleidsleren dat een theoretisch verantwoorde Policy-Invariant Reward Shaping-methode gebruikt. Dit stelt de agent in staat om gebruik te maken van dichte beloningen voor efficiënte zelfverbetering zonder het optimale beleid te veranderen, waardoor de semantische val fundamenteel wordt vermeden. Uitgebreide experimenten in diverse gesimuleerde en real-world taken valideren onze aanpak. GRM bereikt state-of-the-art nauwkeurigheid in beloningsbeoordeling, en Dopamine-RL, gebouwd op GRM, verbetert de efficiëntie van beleidsleren aanzienlijk. Wanneer GRM bijvoorbeeld op een one-shot-manier wordt aangepast aan een nieuwe taak vanuit een enkele expert-traject, stelt het resulterende beloningsmodel Dopamine-RL in staat om het beleid te verbeteren van bijna nul naar 95% succes met slechts 150 online rollouts (ongeveer 1 uur echte robotinteractie), terwijl sterke generalisatie tussen taken behouden blijft. Projectwebsite: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io
PDF41December 31, 2025