ChatPaper.aiChatPaper

Robo-Dopamine : Modélisation du processus général de récompense pour une manipulation robotique de haute précision

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

December 29, 2025
papers.authors: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI

papers.abstract

Le principal obstacle à l'application de l'apprentissage par renforcement (RL) à la robotique en conditions réelles est la conception de fonctions de récompense efficaces. Bien que les modèles de récompense basés sur l'apprentissage (PRM) constituent récemment une direction prometteuse, ils sont souvent entravés par deux limitations fondamentales : leurs modèles de récompense manquent d'une compréhension pas-à-pas et reposent sur une perception monoculaire, conduisant à des évaluations peu fiables des progrès dans les manipulations fines ; et leurs procédures de façonnage de la récompense sont théoriquement infondées, induisant souvent un piège sémantique qui égare l'optimisation de la politique. Pour y remédier, nous présentons Dopamine-Reward, une nouvelle méthode de modélisation de la récompense pour apprendre un modèle de récompense de processus généraliste et conscient des étapes à partir de données multi-vues. Son cœur est notre Modèle de Récompense Général (GRM), entraîné sur un vaste jeu de données de plus de 3 400 heures, qui exploite la Discrétisation Pas-à-pas des Récompenses pour une compréhension structurelle et la Fusion de Récompenses Multi-Perspectives pour surmonter les limitations perceptives. Sur la base de Dopamine-Reward, nous proposons Dopamine-RL, un cadre robuste d'apprentissage de politiques qui utilise une méthode de Façonnage de Récompense Invariante à la Politique, théoriquement solide. Cette méthode permet à l'agent d'utiliser des récompenses denses pour une auto-amélioration efficace sans altérer la politique optimale, évitant ainsi fondamentalement le piège sémantique. Des expériences approfondies sur diverses tâches simulées et réelles valident notre approche. Le GRM atteint une précision de pointe dans l'évaluation des récompenses, et Dopamine-RL, construit sur le GRM, améliore significativement l'efficacité de l'apprentissage des politiques. Par exemple, après que le GRM a été adapté à une nouvelle tâche en one-shot à partir d'une seule trajectoire experte, le modèle de récompense résultant permet à Dopamine-RL d'améliorer la politique d'un succès proche de zéro à 95 % avec seulement 150 déploiements en ligne (environ 1 heure d'interaction réelle avec le robot), tout en conservant une forte généralisation entre les tâches. Site web du projet : https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io
PDF41December 31, 2025