Robot-R1: Reinforcement Learning voor Verbeterd Belichaamd Redeneren in Robotica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
Auteurs: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Samenvatting
Grote Vision-Taalmodellen (LVLMs) hebben recentelijk veelbelovende vooruitgang geboekt in de robotica door het combineren van belichaamde redenering met robotbesturing. Een gangbare aanpak omvat het trainen op belichaamde redeneringstaken die verband houden met robotbesturing door middel van Supervised Fine-Tuning (SFT). SFT-datasets worden echter vaak heuristisch samengesteld en zijn niet expliciet geoptimaliseerd voor het verbeteren van robotbesturing. Bovendien leidt SFT vaak tot problemen zoals catastrofaal vergeten en verminderde generalisatieprestaties. Om deze beperkingen aan te pakken, introduceren we Robot-R1, een nieuw framework dat reinforcement learning benut om belichaamde redenering specifiek voor robotbesturing te verbeteren. Robot-R1 leert om de volgende sleutelpuntstatus te voorspellen die nodig is voor het voltooien van een taak, gebaseerd op de huidige scène-afbeelding en omgevingsmetadata afgeleid van expertdemonstraties. Geïnspireerd door de DeepSeek-R1-leeraanpak, bemonstert Robot-R1 redeneringsgebaseerde reacties en versterkt die welke leiden tot nauwkeurigere voorspellingen. Onze experimenten tonen aan dat modellen getraind met Robot-R1 SFT-methoden overtreffen op belichaamde redeneringstaken. Ondanks slechts 7B parameters te hebben, overtreft Robot-R1 zelfs GPT-4o op redeneringstaken gerelateerd aan laag-niveau actiebesturing, zoals ruimtelijke en primitieve bewegingsredenering.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.