SpatialScore: Naar een geünificeerde evaluatie voor multimodale ruimtelijke begripsvorming
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Auteurs: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) hebben indrukwekkende successen behaald in vraag-antwoordtaken, maar hun mogelijkheden voor ruimtelijk inzicht zijn minder onderzocht. Dit werk onderzoekt een kritische vraag: beschikken bestaande MLLMs over 3D-ruimtelijke waarneming en begrip? Concreet leveren we de volgende bijdragen in dit artikel: (i) we introduceren VGBench, een benchmark specifiek ontworpen om MLLMs te beoordelen op visueel geometrisch inzicht, zoals camerapositie en bewegingsschatting; (ii) we stellen SpatialScore voor, de meest uitgebreide en diverse multimodale benchmark voor ruimtelijk begrip tot nu toe, die VGBench integreert met relevante gegevens uit 11 andere bestaande datasets. Deze benchmark omvat 28K samples over verschillende ruimtelijke begriptaken, modaliteiten en QA-formaten, samen met een zorgvuldig samengestelde uitdagende subset, SpatialScore-Hard; (iii) we ontwikkelen SpatialAgent, een nieuw multi-agent systeem met 9 gespecialiseerde tools voor ruimtelijk begrip, dat zowel Plan-Execute als ReAct-redeneerparadigma's ondersteunt; (iv) we voeren uitgebreide evaluaties uit om hardnekkige uitdagingen in ruimtelijk redeneren aan het licht te brengen, terwijl we de effectiviteit van SpatialAgent aantonen. We geloven dat SpatialScore waardevolle inzichten zal bieden en zal dienen als een rigoureuze benchmark voor de volgende evolutie van MLLMs.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.