Robot-R1: ロボティクスにおける強化された身体化推論のための強化学習
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
著者: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
要旨
大規模視覚言語モデル(LVLM)は、具象化された推論とロボット制御を組み合わせることで、ロボティクスの進展に大きな可能性を示しています。一般的なアプローチとして、教師ありファインチューニング(SFT)を用いてロボット制御に関連する具象化推論タスクを学習する方法が採用されています。しかし、SFTデータセットはしばしばヒューリスティックに構築されており、ロボット制御の向上に最適化されていません。さらに、SFTは破滅的忘却や汎化性能の低下といった問題を引き起こすことがあります。これらの課題を解決するため、我々はロボット制御に特化した具象化推論を強化する新しいフレームワーク「Robot-R1」を提案します。Robot-R1は、現在のシーン画像と専門家のデモンストレーションから得られた環境メタデータを条件として、タスク完了に必要な次のキーポイント状態を予測することを学習します。DeepSeek-R1の学習アプローチに着想を得たRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながる応答を強化します。実験結果から、Robot-R1で学習したモデルは、具象化推論タスクにおいてSFT手法を上回ることが示されました。7Bパラメータしか持たないにもかかわらず、Robot-R1は空間的および原始的な動作推論といった低レベルな動作制御に関連する推論タスクにおいて、GPT-4oをも凌駕する性能を発揮しました。
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.