Razonamiento Espacial con Modelos de Visión-Lenguaje en Escenas Egocéntricas de Múltiples Vistas
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
September 8, 2025
Autores: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
Resumen
La comprensión de las relaciones espaciales en 3D sigue siendo una limitación importante de los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Trabajos previos han abordado este problema mediante la creación de conjuntos de datos de preguntas y respuestas (QA) espaciales basados en imágenes individuales o videos de interiores. Sin embargo, los agentes de IA integrados en el mundo real, como robots y vehículos autónomos, suelen depender de observaciones egocéntricas y multivista. Con este fin, presentamos Ego3D-Bench, un nuevo punto de referencia diseñado para evaluar las habilidades de razonamiento espacial de los VLMs utilizando datos egocéntricos y multivista de exteriores. Ego3D-Bench comprende más de 8,600 pares de QA, creados con una participación significativa de anotadores humanos para garantizar calidad y diversidad. Evaluamos 16 VLMs de última generación, incluyendo GPT-4o, Gemini1.5-Pro, InternVL3 y Qwen2.5-VL. Nuestros resultados revelan una brecha notable entre los puntajes de nivel humano y el rendimiento de los VLMs, destacando que los VLMs actuales aún no alcanzan el nivel de comprensión espacial humana. Para cerrar esta brecha, proponemos Ego3D-VLM, un marco de posentrenamiento que mejora el razonamiento espacial en 3D de los VLMs. Ego3D-VLM genera un mapa cognitivo basado en coordenadas globales 3D estimadas, lo que resulta en una mejora promedio del 12% en QA de opción múltiple y del 56% en la estimación de distancia absoluta. Ego3D-VLM es modular y puede integrarse con cualquier VLM existente. Juntos, Ego3D-Bench y Ego3D-VLM ofrecen herramientas valiosas para avanzar hacia una comprensión espacial de nivel humano en entornos reales y multivista.
English
Understanding 3D spatial relationships remains a major limitation of current
Vision-Language Models (VLMs). Prior work has addressed this issue by creating
spatial question-answering (QA) datasets based on single images or indoor
videos. However, real-world embodied AI agents such as robots and self-driving
cars typically rely on ego-centric, multi-view observations. To this end, we
introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial
reasoning abilities of VLMs using ego-centric, multi-view outdoor data.
Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement
from human annotators to ensure quality and diversity. We benchmark 16 SOTA
VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results
reveal a notable performance gap between human level scores and VLM
performance, highlighting that current VLMs still fall short of human level
spatial understanding. To bridge this gap, we propose Ego3D-VLM, a
post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM
generates cognitive map based on estimated global 3D coordinates, resulting in
12% average improvement on multi-choice QA and 56% average improvement on
absolute distance estimation. Ego3D-VLM is modular and can be integrated with
any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for
advancing toward human level spatial understanding in real-world, multi-view
environments.