RoboTracer: ロボティクスにおける視覚言語モデルの空間軌跡推論の習得
RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
December 15, 2025
著者: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI
要旨
空間追跡は、ロボットにおける基本的な身体性インタラクション能力として、多段階のメートル法に基づく推論と複雑な空間参照、実世界の計測を組み合わせる必要があるため、本質的に困難な課題である。しかし、既存手法はこの複合的なタスクに対処しきれていない。そこで我々はRoboTracerを提案する。これは3D空間認識を備えた視覚言語モデル(VLM)であり、普遍的な空間エンコーダと回帰監督付きデコーダを通じて、教師ありファインチューニング(SFT)中のスケール認識を強化し、3D空間参照と計測を両立した初めての手法である。さらにRoboTracerは、メートル法に敏感なプロセス報酬を用いた強化学習ファインチューニング(RFT)により、重要な中間知覚手がかりを監督しながら空間軌跡を正確に生成する、多段階メートル法推論を進化させている。SFTとRFTの訓練を支援するため、屋外/室内/卓上シーンを網羅し複雑な推論プロセス(最大9段階)をサポートする大規模データセットTraceSpatial(3,000万のQAペア)を構築した。さらに、空間追跡評価の空白を埋める挑戦的ベンチマークTraceSpatial-Benchを提案する。実験結果では、RoboTracerが空間理解・計測・参照においてベースラインを凌駕し平均成功率79.1%を達成、TraceSpatial-BenchでもGemini-2.5-Proを36%上回る精度で大幅なSOTA性能を示した。特筆すべきは、RoboTracerが多様な制御ポリシーと連携し、雑多な実世界シーンで様々なロボット(UR5、G1ヒューマノイド)による長期的で動的なタスクを実行可能な点である。
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.