ChatPaper.aiChatPaper

RoboTracer: Padroneggiare la Traccia Spaziale con Ragionamento nei Modelli Visione-Linguaggio per la Robotica

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

December 15, 2025
Autori: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI

Abstract

Il tracciamento spaziale, come abilità fondamentale di interazione incarnata per i robot, è intrinsecamente complesso poiché richiede un ragionamento metrico articolato in più fasi, combinato con riferimenti spaziali complessi e misurazioni metriche nel mondo reale. Tuttavia, i metodi esistenti faticano ad affrontare questo compito composito. A tal fine, proponiamo RoboTracer, un VLM (Large Vision-Language Model) con consapevolezza 3D che per la prima volta realizza sia il riferimento spaziale 3D che la misurazione tramite un encoder spaziale universale e un decoder supervisionato per regressione, per potenziare la consapevolezza della scala durante il fine-tuning supervisionato (SFT). Inoltre, RoboTracer avanza nel ragionamento metrico multi-step attraverso un fine-tuning per rinforzo (RFT) con ricompense di processo metrico-sensibili, supervisionando indizi percettivi intermedi chiave per generare accuratamente tracce spaziali. Per supportare l'addestramento SFT e RFT, introduciamo TraceSpatial, un dataset su larga scala di 30 milioni di coppie domanda-risposta, che copre scene esterne/interne/su tavolo e supporta processi di ragionamento complessi (fino a 9 passi). Presentiamo inoltre TraceSpatial-Bench, un benchmark impegnativo che colma la lacuna per la valutazione del tracciamento spaziale. I risultati sperimentali mostrano che RoboTracer supera i baseline nella comprensione spaziale, nella misurazione e nel riferimento, con un tasso di successo medio del 79,1%, e raggiunge anche prestazioni allo stato dell'arte su TraceSpatial-Bench con un ampio margine, superando Gemini-2.5-Pro del 36% in accuratezza. Degno di nota, RoboTracer può essere integrato con varie politiche di controllo per eseguire task dinamici a lungo orizzonte su robot diversi (UR5, umanoide G1) in scene real-world affollate.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.
PDF361December 18, 2025