RoboRefer: Auf dem Weg zur räumlichen Referenzierung mit logischem Schlussfolgern in Vision-Sprache-Modellen für die Robotik
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Autoren: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Zusammenfassung
Räumliches Referenzieren ist eine grundlegende Fähigkeit von verkörperten Robotern, um mit der dreidimensionalen physischen Welt zu interagieren. Allerdings sind aktuelle Ansätze selbst mit leistungsstarken vortrainierten Vision-Language-Modellen (VLMs) noch nicht in der Lage, komplexe 3D-Szenen präzise zu verstehen und dynamisch über die durch Anweisungen angegebenen Interaktionsorte zu schlussfolgern. Zu diesem Zweck schlagen wir RoboRefer vor, ein 3D-bewusstes VLM, das zunächst ein präzises räumliches Verständnis durch die Integration eines entkoppelten, aber spezialisierten Tiefenencoders mittels überwachtem Feinabgleich (Supervised Fine-Tuning, SFT) erreichen kann. Darüber hinaus erweitert RoboRefer das generalisierte mehrstufige räumliche Schlussfolgern durch verstärkendes Feinabgleich (Reinforcement Fine-Tuning, RFT) mit metrik-sensitiven Prozess-Belohnungsfunktionen, die speziell für räumliche Referenzierungsaufgaben entwickelt wurden. Um das SFT- und RFT-Training zu unterstützen, führen wir RefSpatial ein, einen groß angelegten Datensatz mit 20 Millionen Frage-Antwort-Paaren (2x mehr als bisher), der 31 räumliche Beziehungen abdeckt (im Vergleich zu 15 bisher) und komplexe Schlussfolgerungsprozesse (bis zu 5 Schritte) unterstützt. Zusätzlich stellen wir RefSpatial-Bench vor, einen anspruchsvollen Benchmark, der die Lücke bei der Bewertung von räumlichem Referenzieren mit mehrstufigem Schlussfolgern schließt. Experimente zeigen, dass der SFT-trainierte RoboRefer ein state-of-the-art räumliches Verständnis erreicht, mit einer durchschnittlichen Erfolgsrate von 89,6%. Der RFT-trainierte RoboRefer übertrifft alle anderen Baselines deutlich und überholt sogar Gemini-2.5-Pro um 17,4% in der durchschnittlichen Genauigkeit auf RefSpatial-Bench. Bemerkenswert ist, dass RoboRefer mit verschiedenen Steuerungsrichtlinien integriert werden kann, um langfristige, dynamische Aufgaben über diverse Roboter (z.B. UR5, G1-Humanoid) in unübersichtlichen realen Szenarien auszuführen.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.