ChatPaper.aiChatPaper

RoboTracer: Beherrschung räumlicher Spuren durch logisches Schließen in visuell-sprachlichen Modellen für die Robotik

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

December 15, 2025
papers.authors: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI

papers.abstract

Räumliche Nachverfolgung als grundlegende verkörperte Interaktionsfähigkeit für Roboter ist von Natur aus herausfordernd, da sie mehrstufige metrisch fundierte Reasoning-Prozesse erfordert, die mit komplexen räumlichen Referenzen und realen metrischen Messungen kombiniert sind. Bisherige Methoden haben jedoch Schwierigkeiten mit dieser kombinatorischen Aufgabe. Daher schlagen wir RoboTracer vor, ein 3D-bewusstes VLM, das erstmals sowohl 3D-räumliche Referenzierung als auch Messung durch einen universellen räumlichen Encoder und einen regressionsüberwachten Decoder erreicht, um das Skalenbewusstsein während des supervised Fine-Tunings (SFT) zu verbessern. Darüber hinaus erweitert RoboTracer das mehrstufige metrisch fundierte Reasoning durch Reinforcement Fine-Tuning (RFT) mit metrisch sensitiven Prozessbelohnungen, die wichtige perzeptuelle Zwischenhinweise überwachen, um räumliche Spuren präzise zu generieren. Um SFT- und RFT-Training zu unterstützen, führen wir TraceSpatial ein, einen großen Datensatz mit 30 Millionen Frage-Antwort-Paaren, der Innen-/Außen- und Tischszenen abdeckt und komplexe Reasoning-Prozesse (bis zu 9 Schritte) unterstützt. Wir präsentieren außerdem TraceSpatial-Bench, eine anspruchsvolle Benchmark, die die Lücke zur Evaluierung räumlicher Nachverfolgung schließt. Experimentelle Ergebnisse zeigen, dass RoboTracer Baseline-Methoden im räumlichen Verständnis, bei Messungen und Referenzen mit einer durchschnittlichen Erfolgsrate von 79,1% übertrifft und auf TraceSpatial-Bench mit großem Abstand State-of-the-Art-Leistung erzielt, indem es Gemini-2.5-Pro um 36% Genauigkeit übertrifft. Bemerkenswerterweise kann RoboTracer mit verschiedenen Steuerungsstrategien integriert werden, um langfristige, dynamische Aufgaben über verschiedene Roboter (UR5, G1-Humanoid) hinweg in unübersichtlichen realen Szenarien auszuführen.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.
PDF361December 18, 2025