Razonamiento Espacial con Modelos de Visión-Lenguaje en Escenas Egocéntricas de Múltiples Vistas

Resumen

La comprensión de las relaciones espaciales en 3D sigue siendo una limitación importante de los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Trabajos previos han abordado este problema mediante la creación de conjuntos de datos de preguntas y respuestas (QA) espaciales basados en imágenes individuales o videos de interiores. Sin embargo, los agentes de IA integrados en el mundo real, como robots y vehículos autónomos, suelen depender de observaciones egocéntricas y multivista. Con este fin, presentamos Ego3D-Bench, un nuevo punto de referencia diseñado para evaluar las habilidades de razonamiento espacial de los VLMs utilizando datos egocéntricos y multivista de exteriores. Ego3D-Bench comprende más de 8,600 pares de QA, creados con una participación significativa de anotadores humanos para garantizar calidad y diversidad. Evaluamos 16 VLMs de última generación, incluyendo GPT-4o, Gemini1.5-Pro, InternVL3 y Qwen2.5-VL. Nuestros resultados revelan una brecha notable entre los puntajes de nivel humano y el rendimiento de los VLMs, destacando que los VLMs actuales aún no alcanzan el nivel de comprensión espacial humana. Para cerrar esta brecha, proponemos Ego3D-VLM, un marco de posentrenamiento que mejora el razonamiento espacial en 3D de los VLMs. Ego3D-VLM genera un mapa cognitivo basado en coordenadas globales 3D estimadas, lo que resulta en una mejora promedio del 12% en QA de opción múltiple y del 56% en la estimación de distancia absoluta. Ego3D-VLM es modular y puede integrarse con cualquier VLM existente. Juntos, Ego3D-Bench y Ego3D-VLM ofrecen herramientas valiosas para avanzar hacia una comprensión espacial de nivel humano en entornos reales y multivista.

English

Understanding 3D spatial relationships remains a major limitation of current Vision-Language Models (VLMs). Prior work has addressed this issue by creating spatial question-answering (QA) datasets based on single images or indoor videos. However, real-world embodied AI agents such as robots and self-driving cars typically rely on ego-centric, multi-view observations. To this end, we introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial reasoning abilities of VLMs using ego-centric, multi-view outdoor data. Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement from human annotators to ensure quality and diversity. We benchmark 16 SOTA VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results reveal a notable performance gap between human level scores and VLM performance, highlighting that current VLMs still fall short of human level spatial understanding. To bridge this gap, we propose Ego3D-VLM, a post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM generates cognitive map based on estimated global 3D coordinates, resulting in 12% average improvement on multi-choice QA and 56% average improvement on absolute distance estimation. Ego3D-VLM is modular and can be integrated with any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for advancing toward human level spatial understanding in real-world, multi-view environments.

Razonamiento Espacial con Modelos de Visión-Lenguaje en Escenas Egocéntricas de Múltiples Vistas

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

Resumen

Support