RoboRefer: ロボティクスにおける視覚言語モデルを用いた空間参照推論の実現に向けて
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
著者: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
要旨
空間参照は、具現化されたロボットが3D物理世界と相互作用するための基本的な能力である。しかし、強力な事前学習済み視覚言語モデル(VLM)を備えていても、最近のアプローチは複雑な3Dシーンを正確に理解し、指示された位置について動的に推論するにはまだ不十分である。このため、我々はRoboReferを提案する。これは、監督微調整(SFT)を介して分離されたが専用の深度エンコーダを統合することで、まず正確な空間理解を実現する3D対応VLMである。さらに、RoboReferは、空間参照タスクに特化したメトリックに敏感なプロセス報酬関数を用いた強化学習微調整(RFT)を介して、一般化された多段階空間推論を進化させる。SFTとRFTのトレーニングをサポートするために、我々はRefSpatialを導入する。これは、31の空間関係(従来の15に対して)をカバーし、複雑な推論プロセス(最大5段階)をサポートする20MのQAペア(従来の2倍)の大規模データセットである。さらに、多段階推論を伴う空間参照の評価におけるギャップを埋める挑戦的なベンチマークであるRefSpatial-Benchを導入する。実験では、SFTでトレーニングされたRoboReferが最先端の空間理解を達成し、平均成功率は89.6%である。RFTでトレーニングされたRoboReferは、他のすべてのベースラインを大きく上回り、RefSpatial-Benchでの平均精度でGemini-2.5-Proを17.4%上回る。特に、RoboReferはさまざまな制御ポリシーと統合でき、雑然とした現実世界のシーンで多様なロボット(例:UR5、G1ヒューマノイド)にわたる長期的で動的なタスクを実行できる。
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.