Robo-Dopamina: Modellazione Generale del Processo di Ricompensa per la Manipolazione Robotica di Alta Precisione
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
December 29, 2025
Autori: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI
Abstract
L'ostacolo principale per l'applicazione dell'apprendimento per rinforzo (RL) alla robotica nel mondo reale è la progettazione di funzioni di ricompensa efficaci. Sebbene i modelli di ricompensa basati su apprendimento (PRM) rappresentino di recente una direzione promettente, sono spesso ostacolati da due limitazioni fondamentali: i loro modelli di ricompensa mancano di una comprensione step-aware e si basano su una percezione single-view, portando a valutazioni inaffidabili del progresso nella manipolazione fine; e le loro procedure di reward shaping sono teoricamente inconsistenti, inducendo spesso una trappola semantica che disorienta l'ottimizzazione della policy. Per affrontare questi problemi, introduciamo Dopamine-Reward, un metodo innovativo di modellazione della ricompensa per apprendere un modello di ricompensa di processo step-aware e generico da input multi-view. Il suo cuore è il nostro General Reward Model (GRM), addestrato su un vasto dataset di oltre 3.400 ore, che sfrutta la Discretizzazione Step-wise della Ricompensa per una comprensione strutturale e la Fusione della Ricompensa Multi-Prospettiva per superare le limitazioni percettive. Basandoci su Dopamine-Reward, proponiamo Dopamine-RL, un framework robusto per l'apprendimento di policy che impiega un metodo di Policy-Invariant Reward Shaping teoricamente solido, che permette all'agente di sfruttare ricompense dense per un'automiglioramento efficiente senza alterare la policy ottimale, evitando così fondamentalmente la trappola semantica. Esperimenti estesi su vari compiti simulati e del mondo reale convalidano il nostro approccio. Il GRM raggiunge un'accuratezza all'avanguardia nella valutazione delle ricompense, e Dopamine-RL, costruito su GRM, migliora significativamente l'efficienza dell'apprendimento delle policy. Ad esempio, dopo che GRM viene adattato a un nuovo compito in modalità one-shot a partire da una singola traiettoria esperta, il modello di ricompensa risultante consente a Dopamine-RL di migliorare la policy da un successo quasi nullo al 95% con soli 150 rollout online (circa 1 ora di interazione robotica reale), mantenendo al contempo una forte generalizzazione tra i compiti. Sito web del progetto: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io