RoboRefer: Verso il Riferimento Spaziale con Ragionamento nei Modelli Visione-Linguaggio per la Robotica
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Autori: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Abstract
Il riferimento spaziale è una capacità fondamentale dei robot incarnati per interagire con il mondo fisico tridimensionale. Tuttavia, anche con i potenti modelli linguistico-visivi pre-addestrati (VLMs), gli approcci recenti non sono ancora in grado di comprendere accuratamente le complesse scene 3D e di ragionare dinamicamente sulle posizioni indicate dalle istruzioni per l'interazione. A tal fine, proponiamo RoboRefer, un VLM consapevole del 3D che può prima raggiungere una comprensione spaziale precisa integrando un codificatore di profondità dedicato ma disaccoppiato tramite fine-tuning supervisionato (SFT). Inoltre, RoboRefer avanza nel ragionamento spaziale multi-step generalizzato tramite fine-tuning con rinforzo (RFT), con funzioni di ricompensa sensibili alle metriche progettate per i compiti di riferimento spaziale. Per supportare l'addestramento SFT e RFT, introduciamo RefSpatial, un dataset su larga scala di 20 milioni di coppie domanda-risposta (2x rispetto al precedente), che copre 31 relazioni spaziali (rispetto a 15 precedenti) e supporta processi di ragionamento complessi (fino a 5 passaggi). Inoltre, introduciamo RefSpatial-Bench, un benchmark impegnativo che colma il vuoto nella valutazione del riferimento spaziale con ragionamento multi-step. Gli esperimenti mostrano che RoboRefer addestrato con SFT raggiunge una comprensione spaziale all'avanguardia, con un tasso di successo medio dell'89,6%. RoboRefer addestrato con RFT supera ulteriormente tutte le altre baseline con un ampio margine, superando persino Gemini-2.5-Pro del 17,4% in accuratezza media su RefSpatial-Bench. È importante notare che RoboRefer può essere integrato con varie politiche di controllo per eseguire compiti dinamici a lungo termine su diversi robot (ad esempio, UR5, umanoide G1) in scene reali affollate.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.