Ragionamento Spaziale con Modelli Visione-Linguaggio in Scenari Ego-Centrici Multi-Vista
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
September 8, 2025
Autori: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
Abstract
La comprensione delle relazioni spaziali 3D rimane una limitazione significativa degli attuali Modelli Visione-Linguaggio (VLMs). Precedenti lavori hanno affrontato questo problema creando dataset di domande e risposte (QA) spaziali basati su singole immagini o video indoor. Tuttavia, gli agenti AI incarnati nel mondo reale, come robot e auto a guida autonoma, si basano tipicamente su osservazioni egocentriche e multi-vista. A tal fine, introduciamo Ego3D-Bench, un nuovo benchmark progettato per valutare le capacità di ragionamento spaziale dei VLMs utilizzando dati egocentrici e multi-vista in ambienti esterni. Ego3D-Bench comprende oltre 8.600 coppie QA, create con un significativo coinvolgimento di annotatori umani per garantire qualità e diversità. Abbiamo valutato 16 VLMs all'avanguardia, tra cui GPT-4o, Gemini1.5-Pro, InternVL3 e Qwen2.5-VL. I nostri risultati rivelano un divario prestazionale notevole tra i punteggi umani e le prestazioni dei VLMs, evidenziando che gli attuali VLMs sono ancora lontani dalla comprensione spaziale umana. Per colmare questa lacuna, proponiamo Ego3D-VLM, un framework post-training che migliora il ragionamento spaziale 3D dei VLMs. Ego3D-VLM genera una mappa cognitiva basata su coordinate 3D globali stimate, ottenendo un miglioramento medio del 12% nelle QA a scelta multipla e del 56% nella stima assoluta della distanza. Ego3D-VLM è modulare e può essere integrato con qualsiasi VLM esistente. Insieme, Ego3D-Bench e Ego3D-VLM offrono strumenti preziosi per progredire verso una comprensione spaziale di livello umano in ambienti reali e multi-vista.
English
Understanding 3D spatial relationships remains a major limitation of current
Vision-Language Models (VLMs). Prior work has addressed this issue by creating
spatial question-answering (QA) datasets based on single images or indoor
videos. However, real-world embodied AI agents such as robots and self-driving
cars typically rely on ego-centric, multi-view observations. To this end, we
introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial
reasoning abilities of VLMs using ego-centric, multi-view outdoor data.
Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement
from human annotators to ensure quality and diversity. We benchmark 16 SOTA
VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results
reveal a notable performance gap between human level scores and VLM
performance, highlighting that current VLMs still fall short of human level
spatial understanding. To bridge this gap, we propose Ego3D-VLM, a
post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM
generates cognitive map based on estimated global 3D coordinates, resulting in
12% average improvement on multi-choice QA and 56% average improvement on
absolute distance estimation. Ego3D-VLM is modular and can be integrated with
any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for
advancing toward human level spatial understanding in real-world, multi-view
environments.