SpatialScore: Auf dem Weg zu einer einheitlichen Bewertung für multimodales räumliches Verständnis
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Autoren: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben beeindruckende Erfolge bei Frage-Antwort-Aufgaben erzielt, doch ihre Fähigkeiten im Bereich des räumlichen Verständnisses sind weniger erforscht. Diese Arbeit untersucht eine entscheidende Frage: Verfügen bestehende MLLMs über 3D-räumliche Wahrnehmungs- und Verständnisfähigkeiten? Konkret leisten wir in diesem Papier die folgenden Beiträge: (i) Wir führen VGBench ein, einen speziell entwickelten Benchmark zur Bewertung von MLLMs in Bezug auf visuelle Geometriewahrnehmung, z. B. Kamerapose und Bewegungsabschätzung; (ii) Wir schlagen SpatialScore vor, den bisher umfassendsten und vielfältigsten Benchmark für multimodales räumliches Verständnis, der VGBench mit relevanten Daten aus 11 weiteren bestehenden Datensätzen integriert. Dieser Benchmark umfasst 28.000 Proben über verschiedene räumliche Verständnisaufgaben, Modalitäten und Frage-Antwort-Formate hinweg, sowie eine sorgfältig kuratierte anspruchsvolle Teilmenge, SpatialScore-Hard; (iii) Wir entwickeln SpatialAgent, ein neuartiges Multi-Agenten-System, das 9 spezialisierte Tools für räumliches Verständnis integriert und sowohl Plan-Execute- als auch ReAct-Denkparadigmen unterstützt; (iv) Wir führen umfangreiche Evaluierungen durch, um anhaltende Herausforderungen im räumlichen Denken aufzuzeigen, während wir die Wirksamkeit von SpatialAgent demonstrieren. Wir glauben, dass SpatialScore wertvolle Einblicke bieten und als rigoroser Benchmark für die nächste Entwicklungsstufe von MLLMs dienen wird.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.Summary
AI-Generated Summary