RoboRefer : Vers une référence spatiale avec raisonnement dans les modèles vision-langage pour la robotique
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Auteurs: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Résumé
La référence spatiale est une capacité fondamentale des robots incarnés pour interagir avec le monde physique en 3D. Cependant, même avec les puissants modèles de vision et langage pré-entraînés (VLMs), les approches récentes ne sont toujours pas qualifiées pour comprendre avec précision les scènes 3D complexes et raisonner dynamiquement sur les emplacements indiqués par les instructions pour l'interaction. À cette fin, nous proposons RoboRefer, un VLM conscient de la 3D qui peut d'abord atteindre une compréhension spatiale précise en intégrant un encodeur de profondeur dédié mais dissocié via un ajustement fin supervisé (SFT). De plus, RoboRefer améliore le raisonnement spatial multi-étapes généralisé via un ajustement fin par renforcement (RFT), avec des fonctions de récompense sensibles aux métriques adaptées aux tâches de référence spatiale. Pour soutenir l'entraînement SFT et RFT, nous introduisons RefSpatial, un jeu de données à grande échelle de 20 millions de paires question-réponse (2x plus que précédemment), couvrant 31 relations spatiales (contre 15 auparavant) et supportant des processus de raisonnement complexes (jusqu'à 5 étapes). En outre, nous introduisons RefSpatial-Bench, un benchmark difficile comblant le manque d'évaluation de la référence spatiale avec un raisonnement multi-étapes. Les expériences montrent que RoboRefer entraîné avec SFT atteint une compréhension spatiale de pointe, avec un taux de réussite moyen de 89,6 %. RoboRefer entraîné avec RFT surpasse largement toutes les autres méthodes de référence, dépassant même Gemini-2.5-Pro de 17,4 % en précision moyenne sur RefSpatial-Bench. Notamment, RoboRefer peut être intégré à diverses politiques de contrôle pour exécuter des tâches dynamiques à long terme sur divers robots (par exemple, UR5, humanoïde G1) dans des scènes encombrées du monde réel.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.