ChatPaper.aiChatPaper

RoboRefer: Naar ruimtelijke verwijzing met redeneren in visueel-taalkundige modellen voor robotica

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

June 4, 2025
Auteurs: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI

Samenvatting

Ruimtelijke verwijzing is een fundamentele vaardigheid van belichaamde robots om te interageren met de fysieke 3D-wereld. Echter, zelfs met de krachtige vooraf getrainde visuele taalmodellen (VLMs) zijn recente benaderingen nog niet in staat om complexe 3D-scènes nauwkeurig te begrijpen en dynamisch te redeneren over de locaties die in instructies worden aangegeven voor interactie. Daarom stellen we RoboRefer voor, een 3D-bewust VLM dat eerst precieze ruimtelijke begrip kan bereiken door een ontvlochten maar toegewijde diepte-encoder te integreren via supervised fine-tuning (SFT). Bovendien bevordert RoboRefer gegeneraliseerd meerstaps ruimtelijk redeneren via reinforcement fine-tuning (RFT), met metriekgevoelige procesbeloningsfuncties die zijn afgestemd op ruimtelijke verwijzingstaken. Om SFT- en RFT-training te ondersteunen, introduceren we RefSpatial, een grootschalige dataset van 20M vraag-antwoordparen (2x meer dan voorheen), die 31 ruimtelijke relaties omvat (tegenover 15 voorheen) en complexe redeneerprocessen ondersteunt (tot 5 stappen). Daarnaast introduceren we RefSpatial-Bench, een uitdagende benchmark die de leemte opvult in het evalueren van ruimtelijke verwijzing met meerstaps redeneren. Experimenten tonen aan dat SFT-getrainde RoboRefer state-of-the-art ruimtelijk begrip bereikt, met een gemiddeld slagingspercentage van 89,6%. RFT-getrainde RoboRefer overtreft verder alle andere baseline-modellen met een grote marge, en overtreft zelfs Gemini-2.5-Pro met 17,4% in gemiddelde nauwkeurigheid op RefSpatial-Bench. Opmerkelijk is dat RoboRefer kan worden geïntegreerd met verschillende controlebeleidsregels om langetermijn, dynamische taken uit te voeren op diverse robots (bijv. UR5, G1 humanoïde) in rommelige real-world scènes.
English
Spatial referring is a fundamental capability of embodied robots to interact with the 3D physical world. However, even with the powerful pretrained vision language models (VLMs), recent approaches are still not qualified to accurately understand the complex 3D scenes and dynamically reason about the instruction-indicated locations for interaction. To this end, we propose RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding by integrating a disentangled but dedicated depth encoder via supervised fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process reward functions tailored for spatial referring tasks. To support SFT and RFT training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x prior), covering 31 spatial relations (vs. 15 prior) and supporting complex reasoning processes (up to 5 steps). In addition, we introduce RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial referring with multi-step reasoning. Experiments show that SFT-trained RoboRefer achieves state-of-the-art spatial understanding, with an average success rate of 89.6%. RFT-trained RoboRefer further outperforms all other baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (e,g., UR5, G1 humanoid) in cluttered real-world scenes.
PDF393June 6, 2025