로봇-R1: 로보틱스에서 강화된 실체화 추론을 위한 강화 학습
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
저자: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
초록
대규모 시각-언어 모델(LVLMs)은 최근 구체화된 추론과 로봇 제어를 결합함으로써 로봇 공학의 발전에 큰 가능성을 보여주고 있습니다. 일반적인 접근 방식은 지도 미세 조정(SFT)을 사용하여 로봇 제어와 관련된 구체화된 추론 작업에 대해 학습하는 것입니다. 그러나 SFT 데이터셋은 종종 경험적으로 구성되며 로봇 제어 개선을 위해 명시적으로 최적화되지 않습니다. 더욱이, SFT는 종종 치명적인 망각과 일반화 성능 저하와 같은 문제를 야기합니다. 이러한 한계를 해결하기 위해, 우리는 로봇 제어를 위한 구체화된 추론을 강화하기 위해 강화 학습을 활용하는 새로운 프레임워크인 Robot-R1을 소개합니다. Robot-R1은 전문가 시연에서 도출된 현재 장면 이미지와 환경 메타데이터를 조건으로 하여 작업 완료에 필요한 다음 키포인트 상태를 예측하는 방법을 학습합니다. DeepSeek-R1 학습 접근법에서 영감을 받은 Robot-R1은 추론 기반 응답을 샘플링하고 더 정확한 예측으로 이어지는 응답을 강화합니다. 우리의 실험은 Robot-R1으로 훈련된 모델이 구체화된 추론 작업에서 SFT 방법을 능가하는 것을 보여줍니다. 단 7B 파라미터만을 가지고 있음에도 불구하고, Robot-R1은 공간 및 기본 동작 추론과 같은 저수준 동작 제어와 관련된 추론 작업에서 GPT-4o를 능가합니다.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.