Robot-R1: Обучение с подкреплением для улучшения воплощённого мышления в робототехнике
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
Авторы: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Аннотация
Крупные модели, объединяющие обработку изображений и текста (Large Vision-Language Models, LVLM), недавно продемонстрировали значительный потенциал в развитии робототехники, сочетая воплощённое рассуждение с управлением роботами. Распространённый подход включает обучение на задачах воплощённого рассуждения, связанных с управлением роботами, с использованием метода тонкой настройки с учителем (Supervised Fine-Tuning, SFT). Однако наборы данных для SFT часто создаются эвристически и не оптимизированы явно для улучшения управления роботами. Кроме того, SFT часто приводит к таким проблемам, как катастрофическое забывание и снижение обобщающей способности. Для устранения этих ограничений мы представляем Robot-R1 — новую структуру, которая использует обучение с подкреплением для улучшения воплощённого рассуждения, ориентированного на управление роботами. Robot-R1 обучается предсказывать следующее ключевое состояние, необходимое для выполнения задачи, на основе текущего изображения сцены и метаданных среды, полученных из экспертных демонстраций. Вдохновлённые подходом DeepSeek-R1, мы в Robot-R1 выбираем ответы, основанные на рассуждениях, и усиливаем те из них, которые приводят к более точным предсказаниям. Наши эксперименты показывают, что модели, обученные с использованием Robot-R1, превосходят методы SFT в задачах воплощённого рассуждения. Несмотря на наличие всего 7 миллиардов параметров, Robot-R1 даже превосходит GPT-4o в задачах рассуждения, связанных с низкоуровневым управлением действиями, такими как пространственное и примитивное движение.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.