Räumliches Schließen mit Vision-Sprache-Modellen in egozentrischen Multi-View-Szenen

papers.abstract

Das Verständnis von 3D-Raumbeziehungen bleibt eine wesentliche Einschränkung aktueller Vision-Language-Modelle (VLMs). Bisherige Arbeiten haben dieses Problem durch die Erstellung von räumlichen Frage-Antwort-Datensätzen (QA) basierend auf Einzelbildern oder Innenraumvideos adressiert. Allerdings verlassen sich reale, verkörperte KI-Agenten wie Roboter und selbstfahrende Autos typischerweise auf egozentrische, multiview-Beobachtungen. In diesem Zusammenhang stellen wir Ego3D-Bench vor, einen neuen Benchmark, der entwickelt wurde, um die räumlichen Fähigkeiten von VLMs anhand von egozentrischen, multiview-Außendaten zu bewerten. Ego3D-Bench umfasst über 8.600 QA-Paare, die unter erheblicher Beteiligung menschlicher Annotatoren erstellt wurden, um Qualität und Vielfalt zu gewährleisten. Wir bewerten 16 state-of-the-art VLMs, darunter GPT-4o, Gemini1.5-Pro, InternVL3 und Qwen2.5-VL. Unsere Ergebnisse zeigen eine deutliche Leistungslücke zwischen menschlichen Bewertungen und der Leistung der VLMs, was verdeutlicht, dass aktuelle VLMs noch nicht das menschliche Verständnis von räumlichen Zusammenhängen erreichen. Um diese Lücke zu schließen, schlagen wir Ego3D-VLM vor, ein Post-Training-Framework, das die 3D-räumliche Argumentation von VLMs verbessert. Ego3D-VLM generiert eine kognitive Karte basierend auf geschätzten globalen 3D-Koordinaten, was zu einer durchschnittlichen Verbesserung von 12 % bei Multiple-Choice-QA und 56 % bei der absoluten Entfernungsschätzung führt. Ego3D-VLM ist modular und kann in jedes bestehende VLM integriert werden. Zusammen bieten Ego3D-Bench und Ego3D-VLM wertvolle Werkzeuge, um das menschliche Verständnis von räumlichen Zusammenhängen in realen, multiview-Umgebungen voranzutreiben.

English

Understanding 3D spatial relationships remains a major limitation of current Vision-Language Models (VLMs). Prior work has addressed this issue by creating spatial question-answering (QA) datasets based on single images or indoor videos. However, real-world embodied AI agents such as robots and self-driving cars typically rely on ego-centric, multi-view observations. To this end, we introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial reasoning abilities of VLMs using ego-centric, multi-view outdoor data. Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement from human annotators to ensure quality and diversity. We benchmark 16 SOTA VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results reveal a notable performance gap between human level scores and VLM performance, highlighting that current VLMs still fall short of human level spatial understanding. To bridge this gap, we propose Ego3D-VLM, a post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM generates cognitive map based on estimated global 3D coordinates, resulting in 12% average improvement on multi-choice QA and 56% average improvement on absolute distance estimation. Ego3D-VLM is modular and can be integrated with any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for advancing toward human level spatial understanding in real-world, multi-view environments.

Räumliches Schließen mit Vision-Sprache-Modellen in egozentrischen Multi-View-Szenen

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

papers.abstract

Support