RoboRefer: Hacia la Referencia Espacial con Razonamiento en Modelos de Visión-Lenguaje para Robótica
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
June 4, 2025
Autores: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
cs.AI
Resumen
La referencia espacial es una capacidad fundamental de los robots corporizados para interactuar con el mundo físico en 3D. Sin embargo, incluso con los potentes modelos de lenguaje visual preentrenados (VLMs, por sus siglas en inglés), los enfoques recientes aún no están calificados para comprender con precisión las escenas 3D complejas y razonar dinámicamente sobre las ubicaciones indicadas en las instrucciones para la interacción. Con este fin, proponemos RoboRefer, un VLM consciente del espacio 3D que puede lograr primero una comprensión espacial precisa mediante la integración de un codificador de profundidad desacoplado pero dedicado a través de un ajuste fino supervisado (SFT, por sus siglas en inglés). Además, RoboRefer avanza en el razonamiento espacial generalizado de múltiples pasos mediante un ajuste fino por refuerzo (RFT, por sus siglas en inglés), con funciones de recompensa del proceso sensibles a métricas diseñadas específicamente para tareas de referencia espacial. Para respaldar el entrenamiento de SFT y RFT, presentamos RefSpatial, un conjunto de datos a gran escala de 20 millones de pares de preguntas y respuestas (2 veces más que los anteriores), que cubre 31 relaciones espaciales (frente a 15 anteriores) y admite procesos de razonamiento complejos (hasta 5 pasos). Además, introducimos RefSpatial-Bench, un punto de referencia desafiante que llena el vacío en la evaluación de la referencia espacial con razonamiento de múltiples pasos. Los experimentos muestran que RoboRefer entrenado con SFT alcanza una comprensión espacial de vanguardia, con una tasa de éxito promedio del 89,6%. RoboRefer entrenado con RFT supera aún más a todas las demás líneas base por un amplio margen, incluso superando a Gemini-2.5-Pro en un 17,4% en precisión promedio en RefSpatial-Bench. Notablemente, RoboRefer puede integrarse con diversas políticas de control para ejecutar tareas dinámicas de largo alcance en diversos robots (por ejemplo, UR5, humanoide G1) en escenarios del mundo real desordenados.
English
Spatial referring is a fundamental capability of embodied robots to interact
with the 3D physical world. However, even with the powerful pretrained vision
language models (VLMs), recent approaches are still not qualified to accurately
understand the complex 3D scenes and dynamically reason about the
instruction-indicated locations for interaction. To this end, we propose
RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding
by integrating a disentangled but dedicated depth encoder via supervised
fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial
reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process
reward functions tailored for spatial referring tasks. To support SFT and RFT
training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x
prior), covering 31 spatial relations (vs. 15 prior) and supporting complex
reasoning processes (up to 5 steps). In addition, we introduce
RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial
referring with multi-step reasoning. Experiments show that SFT-trained
RoboRefer achieves state-of-the-art spatial understanding, with an average
success rate of 89.6%. RFT-trained RoboRefer further outperforms all other
baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average
accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various
control policies to execute long-horizon, dynamic tasks across diverse robots
(e,g., UR5, G1 humanoid) in cluttered real-world scenes.