ChatPaper.aiChatPaper

Robo-Dopamina: Modelado de Recompensas de Proceso General para la Manipulación Robótica de Alta Precisión

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

December 29, 2025
Autores: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI

Resumen

El principal obstáculo para aplicar el aprendizaje por refuerzo (RL) a la robótica del mundo real es el diseño de funciones de recompensa efectivas. Si bien los Modelos de Recompensa de Proceso (PRM) basados en aprendizaje son una dirección prometedora recientemente, a menudo se ven obstaculizados por dos limitaciones fundamentales: sus modelos de recompensa carecen de una comprensión consciente de la etapa y dependen de una percepción de vista única, lo que lleva a evaluaciones poco fiables del progreso de la manipulación de grano fino; y sus procedimientos de conformación de recompensas son teóricamente incorrectos, induciendo a menudo una trampa semántica que desorienta la optimización de políticas. Para abordar estos problemas, presentamos Dopamine-Reward, un novedoso método de modelado de recompensas para aprender un modelo de recompensa de proceso de propósito general y consciente de la etapa a partir de entradas multivista. En su núcleo se encuentra nuestro Modelo de Recompensa General (GRM), entrenado en un vasto conjunto de datos de más de 3.400 horas, que aprovecha la Discretización de Recompensas por Etapas para la comprensión estructural y la Fusión de Recompensas Multiperspectiva para superar las limitaciones perceptivas. Basándonos en Dopamine-Reward, proponemos Dopamine-RL, un marco robusto de aprendizaje de políticas que emplea un método de Conformación de Recompensas Invariante a la Política teóricamente sólido, que permite al agente aprovechar recompensas densas para una auto-mejora eficiente sin alterar la política óptima, evitando así fundamentalmente la trampa semántica. Extensos experimentos en diversas tareas simuladas y del mundo real validan nuestro enfoque. GRM logra una precisión de vanguardia en la evaluación de recompensas, y Dopamine-RL, construido sobre GRM, mejora significativamente la eficiencia del aprendizaje de políticas. Por ejemplo, después de que GRM se adapta a una nueva tarea de manera one-shot a partir de una única trayectoria experta, el modelo de recompensa resultante permite a Dopamine-RL mejorar la política de casi cero a un 95% de éxito con solo 150 rollouts en línea (aproximadamente 1 hora de interacción real con el robot), manteniendo al mismo tiempo una fuerte generalización entre tareas. Sitio web del proyecto: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io
PDF41December 31, 2025