Robot-R1 : Apprentissage par Renforcement pour un Raisonnement Embodi Amélioré en Robotique
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
Auteurs: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Résumé
Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) ont récemment démontré un potentiel significatif pour faire progresser la robotique en combinant le raisonnement incarné avec le contrôle des robots. Une approche courante consiste à entraîner ces modèles sur des tâches de raisonnement incarné liées au contrôle des robots en utilisant le réglage fin supervisé (Supervised Fine-Tuning, SFT). Cependant, les ensembles de données pour le SFT sont souvent construits de manière heuristique et ne sont pas explicitement optimisés pour améliorer le contrôle des robots. De plus, le SFT entraîne fréquemment des problèmes tels que l'oubli catastrophique et une réduction des performances de généralisation. Pour surmonter ces limitations, nous introduisons Robot-R1, un nouveau cadre qui exploite l'apprentissage par renforcement pour améliorer le raisonnement incarné spécifiquement pour le contrôle des robots. Robot-R1 apprend à prédire l'état du point clé suivant nécessaire pour accomplir une tâche, en se basant sur l'image actuelle de la scène et les métadonnées de l'environnement dérivées de démonstrations expertes. Inspiré par l'approche d'apprentissage DeepSeek-R1, Robot-R1 échantillonne des réponses basées sur le raisonnement et renforce celles qui conduisent à des prédictions plus précises. Nos expériences montrent que les modèles entraînés avec Robot-R1 surpassent les méthodes SFT sur les tâches de raisonnement incarné. Malgré ses 7 milliards de paramètres seulement, Robot-R1 dépasse même GPT-4o sur des tâches de raisonnement liées au contrôle d'actions de bas niveau, telles que le raisonnement spatial et le raisonnement sur les mouvements primitifs.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.