Робо-дофамин: Моделирование общего процесса вознаграждения для высокоточной роботизированной манипуляции
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
December 29, 2025
Авторы: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
cs.AI
Аннотация
Основным препятствием для применения обучения с подкреплением (RL) в реальной робототехнике является проектирование эффективных функций вознаграждения. Хотя недавно появившиеся основанные на обучении процессные модели вознаграждения (PRM) являются многообещающим направлением, они часто сталкиваются с двумя фундаментальными ограничениями: их моделям вознаграждения не хватает пошагового понимания и они полагаются на восприятие с одного ракурса, что приводит к ненадежной оценке прогресса в тонких манипуляциях; и их процедуры формирования вознаграждения теоретически необоснованны, часто вызывая семантическую ловушку, которая вводит оптимизацию политики в заблуждение. Для решения этих проблем мы представляем Dopamine-Reward — новый метод моделирования вознаграждения для обучения универсальной, пошаговой процессной модели вознаграждения на основе мульти-ракурсных входных данных. В его основе лежит наша Общая Модель Вознаграждения (GRM), обученная на обширном наборе данных объемом более 3400 часов, которая использует Пошаговую Дискретизацию Вознаграждения для структурного понимания и Слияние Вознаграждений с Множественных Перспектив для преодоления перцептивных ограничений. На базе Dopamine-Reward мы предлагаем Dopamine-RL, надежную систему обучения политикам, которая использует теоретически обоснованный метод Формирования Вознаграждения, Инвариантного к Политике. Это позволяет агенту использовать плотные вознаграждения для эффективного самоусовершенствования без изменения оптимальной политики, тем самым фундаментально избегая семантической ловушки. Многочисленные эксперименты на различных задачах в симуляции и реальном мире подтверждают эффективность нашего подхода. GRM достигает высочайшей точности в оценке вознаграждения, а Dopamine-RL, построенный на основе GRM, значительно повышает эффективность обучения политикам. Например, после адаптации GRM к новой задаче одношаговым способом на основе единственной экспертной траектории, полученная модель вознаграждения позволяет Dopamine-RL улучшить политику с почти нулевого уровня до 95% успешности всего за 150 онлайн-эпизодов (приблизительно 1 час взаимодействия с реальным роботом), сохраняя при этом высокую обобщающую способность across tasks. Сайт проекта: https://robo-dopamine.github.io
English
The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io