RoboRefer: Rumo à Referência Espacial com Raciocínio em Modelos Visão-Linguagem para Robótica
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Autores: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Resumo
A referência espacial é uma capacidade fundamental de robôs corporificados para interagir com o mundo físico 3D. No entanto, mesmo com os poderosos modelos de linguagem visual pré-treinados (VLMs), as abordagens recentes ainda não são qualificadas para compreender com precisão cenas 3D complexas e raciocinar dinamicamente sobre os locais indicados pelas instruções para interação. Para isso, propomos o RoboRefer, um VLM 3D que pode primeiro alcançar uma compreensão espacial precisa ao integrar um codificador de profundidade desacoplado, mas dedicado, por meio de ajuste fino supervisionado (SFT). Além disso, o RoboRefer avança o raciocínio espacial generalizado de múltiplos passos por meio de ajuste fino por reforço (RFT), com funções de recompensa de processo sensíveis a métricas adaptadas para tarefas de referência espacial. Para apoiar o treinamento de SFT e RFT, introduzimos o RefSpatial, um conjunto de dados em larga escala com 20 milhões de pares de perguntas e respostas (2x maior que o anterior), cobrindo 31 relações espaciais (vs. 15 anteriormente) e suportando processos de raciocínio complexos (até 5 passos). Além disso, introduzimos o RefSpatial-Bench, um benchmark desafiador que preenche a lacuna na avaliação de referência espacial com raciocínio de múltiplos passos. Os experimentos mostram que o RoboRefer treinado com SFT alcança o estado da arte em compreensão espacial, com uma taxa média de sucesso de 89,6%. O RoboRefer treinado com RFT supera ainda mais todas as outras linhas de base por uma grande margem, ultrapassando até o Gemini-2.5-Pro em 17,4% na precisão média no RefSpatial-Bench. Notavelmente, o RoboRefer pode ser integrado com várias políticas de controle para executar tarefas dinâmicas de longo prazo em diversos robôs (por exemplo, UR5, humanóide G1) em cenas do mundo real desordenadas.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.