RoboRefer: Naar ruimtelijke verwijzing met redeneren in visueel-taalkundige modellen voor robotica
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Auteurs: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Samenvatting
Ruimtelijke verwijzing is een fundamentele vaardigheid van belichaamde robots om te interageren met de fysieke 3D-wereld. Echter, zelfs met de krachtige vooraf getrainde visuele taalmodellen (VLMs) zijn recente benaderingen nog niet in staat om complexe 3D-scènes nauwkeurig te begrijpen en dynamisch te redeneren over de locaties die in instructies worden aangegeven voor interactie. Daarom stellen we RoboRefer voor, een 3D-bewust VLM dat eerst precieze ruimtelijke begrip kan bereiken door een ontvlochten maar toegewijde diepte-encoder te integreren via supervised fine-tuning (SFT). Bovendien bevordert RoboRefer gegeneraliseerd meerstaps ruimtelijk redeneren via reinforcement fine-tuning (RFT), met metriekgevoelige procesbeloningsfuncties die zijn afgestemd op ruimtelijke verwijzingstaken. Om SFT- en RFT-training te ondersteunen, introduceren we RefSpatial, een grootschalige dataset van 20M vraag-antwoordparen (2x meer dan voorheen), die 31 ruimtelijke relaties omvat (tegenover 15 voorheen) en complexe redeneerprocessen ondersteunt (tot 5 stappen). Daarnaast introduceren we RefSpatial-Bench, een uitdagende benchmark die de leemte opvult in het evalueren van ruimtelijke verwijzing met meerstaps redeneren. Experimenten tonen aan dat SFT-getrainde RoboRefer state-of-the-art ruimtelijk begrip bereikt, met een gemiddeld slagingspercentage van 89,6%. RFT-getrainde RoboRefer overtreft verder alle andere baseline-modellen met een grote marge, en overtreft zelfs Gemini-2.5-Pro met 17,4% in gemiddelde nauwkeurigheid op RefSpatial-Bench. Opmerkelijk is dat RoboRefer kan worden geïntegreerd met verschillende controlebeleidsregels om langetermijn, dynamische taken uit te voeren op diverse robots (bijv. UR5, G1 humanoïde) in rommelige real-world scènes.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.