Robo-Dopamina: Modelagem de Recompensa de Processo Geral para Manipulação Robótica de Alta Precisão

Resumo

O principal obstáculo para a aplicação do aprendizado por reforço (RL) à robótica do mundo real é o projeto de funções de recompensa eficazes. Embora os Modelos de Recompensa de Processo (PRMs) baseados em aprendizagem recentemente sejam uma direção promissora, eles são frequentemente prejudicados por duas limitações fundamentais: seus modelos de recompensa carecem de compreensão passo a passo e dependem da percepção de visão única, levando a avaliações não confiáveis do progresso da manipulação refinada; e seus procedimentos de modelagem de recompensa são teoricamente inconsistentes, frequentemente induzindo uma armadilha semântica que desorienta a otimização da política. Para resolver estas questões, introduzimos o Dopamine-Reward, um novo método de modelagem de recompensa para aprender um modelo de recompensa de processo de propósito geral e consciente do passo a partir de entradas multi-visão. Em seu núcleo está o nosso Modelo de Recompensa Geral (GRM), treinado em um vasto conjunto de dados de mais de 3.400 horas, que aproveita a Discretização de Recompensa Passo a Passo para compreensão estrutural e a Fusão de Recompensa Multi-Perspectiva para superar limitações perceptivas. Com base no Dopamine-Reward, propomos o Dopamine-RL, uma estrutura robusta de aprendizado de políticas que emprega um método teoricamente sólido de Modelagem de Recompensa Invariante à Política, que permite ao agente aproveitar recompensas densas para autoaprimoramento eficiente sem alterar a política ótima, evitando assim fundamentalmente a armadilha semântica. Extensos experimentos em diversas tarefas simuladas e do mundo real validam nossa abordagem. O GRM alcança precisão de ponta na avaliação de recompensa, e o Dopamine-RL construído sobre o GRM melhora significativamente a eficiência do aprendizado de políticas. Por exemplo, após o GRM ser adaptado para uma nova tarefa de forma one-shot a partir de uma única trajetória especializada, o modelo de recompensa resultante permite que o Dopamine-RL melhore a política de quase zero para 95% de sucesso com apenas 150 rollouts online (aproximadamente 1 hora de interação real com o robô), mantendo ao mesmo tempo uma forte generalização entre tarefas. Site do projeto: https://robo-dopamine.github.io

English

The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io

Robo-Dopamina: Modelagem de Recompensa de Processo Geral para Manipulação Robótica de Alta Precisão

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

Resumo

Support