Robo-Dopamina: Modelagem de Recompensa de Processo Geral para Manipulação Robótica de Alta Precisão
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
December 29, 2025
Autores: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI
Resumo
O principal obstáculo para a aplicação do aprendizado por reforço (RL) à robótica do mundo real é o projeto de funções de recompensa eficazes. Embora os Modelos de Recompensa de Processo (PRMs) baseados em aprendizagem recentemente sejam uma direção promissora, eles são frequentemente prejudicados por duas limitações fundamentais: seus modelos de recompensa carecem de compreensão passo a passo e dependem da percepção de visão única, levando a avaliações não confiáveis do progresso da manipulação refinada; e seus procedimentos de modelagem de recompensa são teoricamente inconsistentes, frequentemente induzindo uma armadilha semântica que desorienta a otimização da política. Para resolver estas questões, introduzimos o Dopamine-Reward, um novo método de modelagem de recompensa para aprender um modelo de recompensa de processo de propósito geral e consciente do passo a partir de entradas multi-visão. Em seu núcleo está o nosso Modelo de Recompensa Geral (GRM), treinado em um vasto conjunto de dados de mais de 3.400 horas, que aproveita a Discretização de Recompensa Passo a Passo para compreensão estrutural e a Fusão de Recompensa Multi-Perspectiva para superar limitações perceptivas. Com base no Dopamine-Reward, propomos o Dopamine-RL, uma estrutura robusta de aprendizado de políticas que emprega um método teoricamente sólido de Modelagem de Recompensa Invariante à Política, que permite ao agente aproveitar recompensas densas para autoaprimoramento eficiente sem alterar a política ótima, evitando assim fundamentalmente a armadilha semântica. Extensos experimentos em diversas tarefas simuladas e do mundo real validam nossa abordagem. O GRM alcança precisão de ponta na avaliação de recompensa, e o Dopamine-RL construído sobre o GRM melhora significativamente a eficiência do aprendizado de políticas. Por exemplo, após o GRM ser adaptado para uma nova tarefa de forma one-shot a partir de uma única trajetória especializada, o modelo de recompensa resultante permite que o Dopamine-RL melhore a política de quase zero para 95% de sucesso com apenas 150 rollouts online (aproximadamente 1 hora de interação real com o robô), mantendo ao mesmo tempo uma forte generalização entre tarefas. Site do projeto: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io