RoboTracer : Maîtriser la trace spatiale par le raisonnement dans les modèles vision-langage pour la robotique
RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
December 15, 2025
papers.authors: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI
papers.abstract
Le traçage spatial, en tant que capacité fondamentale d'interaction incarnée pour les robots, est intrinsèquement complexe car il nécessite un raisonnement métrique multi-étapes combiné à des références spatiales complexes et à des mesures métriques en monde réel. Cependant, les méthodes existantes peinent à accomplir cette tâche compositionnelle. Pour y remédier, nous proposons RoboTracer, un VLM (Vision-Language Model) conscient de la 3D qui réalise à la fois la référence spatiale 3D et la mesure via un encodeur spatial universel et un décodeur supervisé par régression pour améliorer la conscience de l'échelle lors du fine-tuning supervisé (SFT). De plus, RoboTracer améliore le raisonnement métrique multi-étapes via un fine-tuning par renforcement (RFT) avec des récompenses de processus sensibles aux métriques, supervisant des indices perceptifs intermédiaires clés pour générer avec précision des traces spatiales. Pour soutenir l'entraînement SFT et RFT, nous présentons TraceSpatial, un jeu de données à grande échelle de 30 millions de paires question-réponse, couvrant des scènes extérieures/intérieures/sur tabletop et supportant des processus de raisonnement complexes (jusqu'à 9 étapes). Nous présentons également TraceSpatial-Bench, un benchmark difficile qui comble le manque d'évaluation du traçage spatial. Les résultats expérimentaux montrent que RoboTracer surpasse les méthodes de référence en compréhension, mesure et référence spatiales, avec un taux de réussite moyen de 79,1 %, et obtient également des performances SOTA sur TraceSpatial-Bench avec une large avance, dépassant Gemini-2.5-Pro de 36 % en précision. Fait notable, RoboTracer peut être intégré à diverses politiques de contrôle pour exécuter des tâches dynamiques à long terme sur divers robots (UR5, humanoïde G1) dans des scènes réelles encombrées.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.