RoboTracer: 로봇 공학을 위한 시각-언어 모델의 추론 기반 공간 궤적 마스터링
RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
December 15, 2025
저자: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI
초록
공간 추적은 로봇의 기본적인 구체화 상호작용 능력으로, 다단계 미터법 기반 추론과 복잡한 공간 참조 및 실제 세계 미터법 측정이 결합되어야 하기 때문에 본질적으로 어려운 과제입니다. 그러나 기존 방법론들은 이러한 구성적 과제에 효과적으로 대응하지 못하고 있습니다. 이를 위해 우리는 RoboTracer를 제안합니다. RoboTracer는 지도 미세 조정(SFT) 과정에서 규모 인식을 향상시키기 위해 범용 공간 인코더와 회귀 지도 디코더를 통해 3D 공간 참조와 측정을 동시에 달성하는 최초의 3D 인식 VLM(Vision-Language Model)입니다. 더 나아가 RoboTracer는 미터법 민감도 과정 보상을 통한 강화 미세 조정(RFT)을 통해 다단계 미터법 기반 추론을 발전시켜, 핵심 중간 지각 단서를 지도하여 정확한 공간 궤적을 생성하도록 합니다. SFT와 RFT 학습을 지원하기 위해 우리는 실외/실내/탁상 장면을 아우르고 최대 9단계에 이르는 복잡한 추론 과정을 지원하는 30M QA 쌍으로 구성된 대규모 데이터셋 TraceSpatial를 소개합니다. 또한 공간 추적 평가의 공백을 메우는 도전적인 벤치마크 TraceSpatial-Bench를 제시합니다. 실험 결과, RoboTracer는 공간 이해, 측정, 참조에 있어 기준 모델들을 능가하며 평균 성공률 79.1%를 기록했고, TraceSpatial-Bench에서도 Gemini-2.5-Pro를 36% 정확도로 크게 앞선 SOTA 성능을 달성했습니다. 특히 RoboTracer는 다양한 제어 정책과 통합되어 복잡한 실제 세계 장면에서 다양한 로봇(UR5, G1 휴머노이드)에 걸친 장기적이고 동적인 작업을 수행할 수 있습니다.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.