RoboRefer: К пространственному указанию с логическим обоснованием в визуально-языковых моделях для робототехники
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Авторы: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Аннотация
Пространственное указание является фундаментальной способностью воплощенных роботов для взаимодействия с трехмерным физическим миром. Однако, даже с мощными предобученными моделями, объединяющими зрение и язык (VLMs), современные подходы все еще не способны точно понимать сложные 3D-сцены и динамически рассуждать о местах, указанных в инструкциях для взаимодействия. Для решения этой проблемы мы предлагаем RoboRefer, 3D-ориентированную VLM, которая сначала достигает точного пространственного понимания за счет интеграции специализированного декодера глубины через контролируемую тонкую настройку (SFT). Более того, RoboRefer продвигает обобщенное многошаговое пространственное рассуждение через тонкую настройку с подкреплением (RFT), используя функции вознаграждения, чувствительные к метрикам и адаптированные для задач пространственного указания. Для поддержки обучения SFT и RFT мы представляем RefSpatial, крупномасштабный набор данных из 20 миллионов пар вопросов и ответов (в 2 раза больше, чем ранее), охватывающий 31 пространственное отношение (по сравнению с 15 ранее) и поддерживающий сложные процессы рассуждения (до 5 шагов). Кроме того, мы представляем RefSpatial-Bench, сложный эталонный тест, заполняющий пробел в оценке пространственного указания с многошаговым рассуждением. Эксперименты показывают, что RoboRefer, обученная с помощью SFT, достигает передового уровня пространственного понимания с средним показателем успешности 89,6%. RoboRefer, обученная с помощью RFT, значительно превосходит все другие базовые модели, даже опережая Gemini-2.5-Pro на 17,4% по средней точности на RefSpatial-Bench. Примечательно, что RoboRefer может быть интегрирована с различными политиками управления для выполнения долгосрочных динамических задач на разнообразных роботах (например, UR5, гуманоид G1) в загроможденных реальных сценах.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.