RoboTracer: Освоение пространственного следа с помощью рассуждений в визуально-языковых моделях для робототехники
RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
December 15, 2025
Авторы: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
cs.AI
Аннотация
Пространственное трассирование, как фундаментальная способность роботов к воплощенному взаимодействию, изначально является сложной задачей, поскольку требует многошагового метрически обоснованного рассуждения в сочетании со сложными пространственными ссылками и реальными метрическими измерениями. Однако существующие методы не справляются с этой композиционной задачей. Для ее решения мы предлагаем RoboTracer — 3D-осознанную VLM, которая впервые достигает как пространственного ссылания, так и измерения в 3D с помощью универсального пространственного энкодера и регрессионно-контролируемого декодера для повышения осведомленности о масштабе в процессе контролируемой тонкой настройки (SFT). Более того, RoboTracer продвигает многошаговое метрически обоснованное рассуждение за счет тонкой настройки с подкреплением (RFT) с метрически-чувствительными пошаговыми вознаграждениями, контролируя ключевые промежуточные перцептивные сигналы для точного генерирования пространственных трасс. Для поддержки обучения SFT и RFT мы представляем TraceSpatial — масштабный набор данных из 30 млн пар "вопрос-ответ", охватывающий уличные/комнатные/настольные сцены и поддерживающий сложные процессы рассуждений (до 9 шагов). Мы также представляем TraceSpatial-Bench — сложный эталонный тест, заполняющий пробел для оценки пространственного трассирования. Результаты экспериментов показывают, что RoboTracer превосходит базовые методы в пространственном понимании, измерении и ссылании со средним процентом успеха 79,1%, а также демонстрирует состояние искусства на TraceSpatial-Bench с большим отрывом, превосходя Gemini-2.5-Pro на 36% по точности. Примечательно, что RoboTracer может быть интегрирован с различными политиками управления для выполнения долгосрочных динамических задач на разнообразных роботах (UR5, гуманоид G1) в загроможденных реальных сценах.
English
Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.