Robot-R1: Apprendimento per Rinforzo per un Ragionamento Embodied Avanzato nella Robotica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
Autori: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Abstract
I grandi modelli visione-linguaggio (LVLM) hanno recentemente dimostrato un grande potenziale nel far progredire la robotica, combinando il ragionamento incarnato con il controllo dei robot. Un approccio comune prevede l'addestramento su compiti di ragionamento incarnato relativi al controllo dei robot utilizzando il Fine-Tuning Supervisionato (SFT). Tuttavia, i dataset per SFT sono spesso costruiti in modo euristico e non sono esplicitamente ottimizzati per migliorare il controllo dei robot. Inoltre, l'SFT spesso porta a problemi come il catastrofico oblio e una ridotta capacità di generalizzazione. Per affrontare queste limitazioni, introduciamo Robot-R1, un nuovo framework che sfrutta l'apprendimento per rinforzo per migliorare il ragionamento incarnato specificamente per il controllo dei robot. Robot-R1 impara a prevedere lo stato del prossimo punto chiave necessario per il completamento del compito, condizionato dall'immagine della scena corrente e dai metadati dell'ambiente derivati da dimostrazioni di esperti. Ispirato dall'approccio di apprendimento DeepSeek-R1, Robot-R1 campiona risposte basate sul ragionamento e rinforza quelle che portano a previsioni più accurate. I nostri esperimenti mostrano che i modelli addestrati con Robot-R1 superano i metodi SFT nei compiti di ragionamento incarnato. Nonostante abbia solo 7 miliardi di parametri, Robot-R1 supera persino GPT-4o nei compiti di ragionamento legati al controllo di azioni di basso livello, come il ragionamento spaziale e sui movimenti primitivi.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.