RoboTracer: Dominando o Rastreamento Espacial com Raciocínio em Modelos de Visão e Linguagem para Robótica

Resumo

O rastreamento espacial, enquanto capacidade fundamental de interação corporificada para robôs, é inerentemente desafiador, pois requer raciocínio métrico fundamentado em múltiplos passos, combinado com referência espacial complexa e medição métrica do mundo real. No entanto, os métodos existentes têm dificuldades com esta tarefa composicional. Para tal, propomos o RoboTracer, um Modelo de Linguagem de Visão (VLM) com consciência 3D que alcança, pela primeira vez, tanto a referência quanto a medição espacial 3D através de um codificador espacial universal e de um descodificador supervisionado por regressão para melhorar a consciência de escala durante o ajuste fino supervisionado (SFT). Além disso, o RoboTracer avança o raciocínio métrico fundamentado em múltiplos passos através do ajuste fino por reforço (RFT) com recompensas de processo métrico-sensíveis, supervisionando pistas perceptivas intermediárias-chave para gerar traços espaciais com precisão. Para suportar o treino SFT e RFT, introduzimos o TraceSpatial, um conjunto de dados em larga escala com 30 milhões de pares de perguntas e respostas, abrangendo cenários exteriores/interiores/de mesa e suportando processos de raciocínio complexos (até 9 passos). Apresentamos ainda o TraceSpatial-Bench, um benchmark desafiador que preenche a lacuna para avaliar o rastreamento espacial. Os resultados experimentais mostram que o RoboTracer supera as linhas de base em compreensão espacial, medição e referência, com uma taxa de sucesso média de 79,1%, e também alcança desempenho de estado da arte (SOTA) no TraceSpatial-Bench por uma larga margem, excedendo o Gemini-2.5-Pro em 36% de precisão. Notablemente, o RoboTracer pode ser integrado com várias políticas de controlo para executar tarefas dinâmicas de longo horizonte em diversos robôs (UR5, humanoide G1) em cenas do mundo real com desordem.

English

Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.

RoboTracer: Dominando o Rastreamento Espacial com Raciocínio em Modelos de Visão e Linguagem para Robótica

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

Resumo

Support