ChatPaper.aiChatPaper

Ruimtelijk redeneren met vision-language modellen in ego-centrische multi-view scènes

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

September 8, 2025
Auteurs: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

Samenvatting

Het begrijpen van 3D-ruimtelijke relaties blijft een belangrijke beperking van huidige Vision-Language Models (VLMs). Eerder werk heeft dit probleem aangepakt door ruimtelijke vraag-antwoord (QA) datasets te creëren op basis van enkele afbeeldingen of indoor video's. Echter, in de echte wereld vertrouwen belichaamde AI-agents zoals robots en zelfrijdende auto's doorgaans op ego-centrische, multi-view observaties. Daarom introduceren we Ego3D-Bench, een nieuwe benchmark ontworpen om de ruimtelijke redeneervaardigheden van VLMs te evalueren met behulp van ego-centrische, multi-view buitendata. Ego3D-Bench omvat meer dan 8.600 QA-paren, gecreëerd met aanzienlijke betrokkenheid van menselijke annotators om kwaliteit en diversiteit te waarborgen. We benchmarken 16 state-of-the-art VLMs, waaronder GPT-4o, Gemini1.5-Pro, InternVL3 en Qwen2.5-VL. Onze resultaten onthullen een opmerkelijk prestatieverschil tussen menselijke scores en VLM-prestaties, wat aantoont dat huidige VLMs nog steeds tekortschieten in vergelijking met menselijk niveau van ruimtelijk begrip. Om deze kloof te overbruggen, stellen we Ego3D-VLM voor, een post-trainingsframework dat de 3D-ruimtelijke redeneervaardigheden van VLMs verbetert. Ego3D-VLM genereert een cognitieve kaart op basis van geschatte globale 3D-coördinaten, wat resulteert in een gemiddelde verbetering van 12% op meerkeuze-QA en een gemiddelde verbetering van 56% op absolute afstandsschatting. Ego3D-VLM is modulair en kan worden geïntegreerd met elk bestaand VLM. Samen bieden Ego3D-Bench en Ego3D-VLM waardevolle tools om vooruitgang te boeken naar menselijk niveau van ruimtelijk begrip in real-world, multi-view omgevingen.
English
Understanding 3D spatial relationships remains a major limitation of current Vision-Language Models (VLMs). Prior work has addressed this issue by creating spatial question-answering (QA) datasets based on single images or indoor videos. However, real-world embodied AI agents such as robots and self-driving cars typically rely on ego-centric, multi-view observations. To this end, we introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial reasoning abilities of VLMs using ego-centric, multi-view outdoor data. Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement from human annotators to ensure quality and diversity. We benchmark 16 SOTA VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results reveal a notable performance gap between human level scores and VLM performance, highlighting that current VLMs still fall short of human level spatial understanding. To bridge this gap, we propose Ego3D-VLM, a post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM generates cognitive map based on estimated global 3D coordinates, resulting in 12% average improvement on multi-choice QA and 56% average improvement on absolute distance estimation. Ego3D-VLM is modular and can be integrated with any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for advancing toward human level spatial understanding in real-world, multi-view environments.
PDF102September 12, 2025