ChatPaper.aiChatPaper

RoboTracer: Dominio del Rastreo Espacial con Razonamiento en Modelos de Visión y Lenguaje para Robótica

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

December 15, 2025
Autores: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI

Resumen

El rastreo espacial, como habilidad fundamental de interacción corporeizada para robots, es inherentemente complejo ya que requiere razonamiento métrico multi-etapa combinado con referencias espaciales complejas y mediciones métricas del mundo real. Sin embargo, los métodos existentes tienen dificultades con esta tarea composicional. Para ello, proponemos RoboTracer, un VLM con conciencia 3D que logra por primera vez tanto la referencia como la medición espacial 3D mediante un codificador espacial universal y un decodificador supervisado por regresión para mejorar la conciencia de escala durante el ajuste fino supervisado (SFT). Además, RoboTracer avanza en el razonamiento métrico multi-etapa mediante ajuste fino por refuerzo (RFT) con recompensas de proceso sensibles a la métrica, supervisando pistas perceptivas intermedias clave para generar trazas espaciales con precisión. Para respaldar el entrenamiento SFT y RFT, presentamos TraceSpatial, un conjunto de datos a gran escala de 30 millones de pares de preguntas y respuestas, que abarca escenarios exteriores/interiores/de mesa y soporta procesos de razonamiento complejos (hasta 9 etapas). Además, presentamos TraceSpatial-Bench, un benchmark desafiante que llena el vacío para evaluar el rastreo espacial. Los resultados experimentales muestran que RoboTracer supera a los métodos base en comprensión, medición y referencia espacial, con una tasa de éxito promedio del 79.1%, y también logra un rendimiento de vanguardia en TraceSpatial-Bench por un amplio margen, superando a Gemini-2.5-Pro en un 36% de precisión. Cabe destacar que RoboTracer puede integrarse con diversas políticas de control para ejecutar tareas dinámicas de largo horizonte en diversos robots (UR5, humanoide G1) en escenarios realistas desordenados.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.
PDF361December 18, 2025