ChatPaper.aiChatPaper

RoboTracer: Beheersing van Ruimtelijke Trajecten met Redeneren in Visie-Taalmodellen voor Robotica

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

December 15, 2025
Auteurs: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI

Samenvatting

Ruimtelijke tracering, als fundamentele belichaamde interactievaardigheid voor robots, is inherent uitdagend omdat het multi-stap metrisch-onderbouwd redeneren vereist, gecombineerd met complexe ruimtelijke referentie en meting in de echte wereld. Bestaande methoden hebben echter moeite met deze compositionele taak. Daarom stellen wij RoboTracer voor, een 3D-bewuste VLM die als eerste zowel 3D-ruimtelijke referentie als meting realiseert via een universele ruimtelijke encoder en een regressie-gestuurd decoder om het schaalbewustzijn te vergroten tijdens supervised fine-tuning (SFT). Bovendien verbetert RoboTracer multi-stap metrisch-onderbouwd redeneren via reinforcement fine-tuning (RFT) met metrisch-gevoelige procesbeloningen, waarbij cruciale tussenliggende perceptuele aanwijzingen worden bewaakt om nauwkeurig ruimtelijke sporen te genereren. Om SFT- en RFT-training te ondersteunen, introduceren wij TraceSpatial, een grootschalige dataset van 30M vraag-antwoordparen, die buiten-/binnen-/tafelscènes omspant en complexe redeneerprocessen (tot 9 stappen) ondersteunt. Wij presenteren verder TraceSpatial-Bench, een uitdagende benchmark die de leemte opvult om ruimtelijke tracering te evalueren. Experimentele resultaten tonen aan dat RoboTracer de baseline-methoden overtreft in ruimtelijk begrip, meting en referentie, met een gemiddeld slagingspercentage van 79,1%, en ook state-of-the-art prestaties behaalt op TraceSpatial-Bench met een grote marge, door Gemini-2.5-Pro met 36% nauwkeurigheid te overtreffen. Opmerkelijk is dat RoboTracer kan worden geïntegreerd met diverse besturingsbeleidsregels om langetermijn, dynamische taken uit te voeren op uiteenlopende robots (UR5, G1 humanoïde) in rommelige echte werelden.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.
PDF361December 18, 2025