ChatPaper.aiChatPaper

Razonamiento Espacial con Modelos de Visión-Lenguaje en Escenas Egocéntricas de Múltiples Vistas

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

September 8, 2025
Autores: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

Resumen

La comprensión de las relaciones espaciales en 3D sigue siendo una limitación importante de los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Trabajos previos han abordado este problema mediante la creación de conjuntos de datos de preguntas y respuestas (QA) espaciales basados en imágenes individuales o videos de interiores. Sin embargo, los agentes de IA integrados en el mundo real, como robots y vehículos autónomos, suelen depender de observaciones egocéntricas y multivista. Con este fin, presentamos Ego3D-Bench, un nuevo punto de referencia diseñado para evaluar las habilidades de razonamiento espacial de los VLMs utilizando datos egocéntricos y multivista de exteriores. Ego3D-Bench comprende más de 8,600 pares de QA, creados con una participación significativa de anotadores humanos para garantizar calidad y diversidad. Evaluamos 16 VLMs de última generación, incluyendo GPT-4o, Gemini1.5-Pro, InternVL3 y Qwen2.5-VL. Nuestros resultados revelan una brecha notable entre los puntajes de nivel humano y el rendimiento de los VLMs, destacando que los VLMs actuales aún no alcanzan el nivel de comprensión espacial humana. Para cerrar esta brecha, proponemos Ego3D-VLM, un marco de posentrenamiento que mejora el razonamiento espacial en 3D de los VLMs. Ego3D-VLM genera un mapa cognitivo basado en coordenadas globales 3D estimadas, lo que resulta en una mejora promedio del 12% en QA de opción múltiple y del 56% en la estimación de distancia absoluta. Ego3D-VLM es modular y puede integrarse con cualquier VLM existente. Juntos, Ego3D-Bench y Ego3D-VLM ofrecen herramientas valiosas para avanzar hacia una comprensión espacial de nivel humano en entornos reales y multivista.
English
Understanding 3D spatial relationships remains a major limitation of current Vision-Language Models (VLMs). Prior work has addressed this issue by creating spatial question-answering (QA) datasets based on single images or indoor videos. However, real-world embodied AI agents such as robots and self-driving cars typically rely on ego-centric, multi-view observations. To this end, we introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial reasoning abilities of VLMs using ego-centric, multi-view outdoor data. Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement from human annotators to ensure quality and diversity. We benchmark 16 SOTA VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results reveal a notable performance gap between human level scores and VLM performance, highlighting that current VLMs still fall short of human level spatial understanding. To bridge this gap, we propose Ego3D-VLM, a post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM generates cognitive map based on estimated global 3D coordinates, resulting in 12% average improvement on multi-choice QA and 56% average improvement on absolute distance estimation. Ego3D-VLM is modular and can be integrated with any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for advancing toward human level spatial understanding in real-world, multi-view environments.
PDF52September 12, 2025