Räumliches Schließen mit Vision-Sprache-Modellen in egozentrischen Multi-View-Szenen
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
September 8, 2025
papers.authors: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
papers.abstract
Das Verständnis von 3D-Raumbeziehungen bleibt eine wesentliche Einschränkung aktueller Vision-Language-Modelle (VLMs). Bisherige Arbeiten haben dieses Problem durch die Erstellung von räumlichen Frage-Antwort-Datensätzen (QA) basierend auf Einzelbildern oder Innenraumvideos adressiert. Allerdings verlassen sich reale, verkörperte KI-Agenten wie Roboter und selbstfahrende Autos typischerweise auf egozentrische, multiview-Beobachtungen. In diesem Zusammenhang stellen wir Ego3D-Bench vor, einen neuen Benchmark, der entwickelt wurde, um die räumlichen Fähigkeiten von VLMs anhand von egozentrischen, multiview-Außendaten zu bewerten. Ego3D-Bench umfasst über 8.600 QA-Paare, die unter erheblicher Beteiligung menschlicher Annotatoren erstellt wurden, um Qualität und Vielfalt zu gewährleisten. Wir bewerten 16 state-of-the-art VLMs, darunter GPT-4o, Gemini1.5-Pro, InternVL3 und Qwen2.5-VL. Unsere Ergebnisse zeigen eine deutliche Leistungslücke zwischen menschlichen Bewertungen und der Leistung der VLMs, was verdeutlicht, dass aktuelle VLMs noch nicht das menschliche Verständnis von räumlichen Zusammenhängen erreichen. Um diese Lücke zu schließen, schlagen wir Ego3D-VLM vor, ein Post-Training-Framework, das die 3D-räumliche Argumentation von VLMs verbessert. Ego3D-VLM generiert eine kognitive Karte basierend auf geschätzten globalen 3D-Koordinaten, was zu einer durchschnittlichen Verbesserung von 12 % bei Multiple-Choice-QA und 56 % bei der absoluten Entfernungsschätzung führt. Ego3D-VLM ist modular und kann in jedes bestehende VLM integriert werden. Zusammen bieten Ego3D-Bench und Ego3D-VLM wertvolle Werkzeuge, um das menschliche Verständnis von räumlichen Zusammenhängen in realen, multiview-Umgebungen voranzutreiben.
English
Understanding 3D spatial relationships remains a major limitation of current
Vision-Language Models (VLMs). Prior work has addressed this issue by creating
spatial question-answering (QA) datasets based on single images or indoor
videos. However, real-world embodied AI agents such as robots and self-driving
cars typically rely on ego-centric, multi-view observations. To this end, we
introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial
reasoning abilities of VLMs using ego-centric, multi-view outdoor data.
Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement
from human annotators to ensure quality and diversity. We benchmark 16 SOTA
VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results
reveal a notable performance gap between human level scores and VLM
performance, highlighting that current VLMs still fall short of human level
spatial understanding. To bridge this gap, we propose Ego3D-VLM, a
post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM
generates cognitive map based on estimated global 3D coordinates, resulting in
12% average improvement on multi-choice QA and 56% average improvement on
absolute distance estimation. Ego3D-VLM is modular and can be integrated with
any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for
advancing toward human level spatial understanding in real-world, multi-view
environments.