SpatialScore: Verso una Valutazione Unificata per la Comprensione Spaziale Multimodale
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Autori: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno ottenuto un successo impressionante nei compiti di risposta alle domande, ma le loro capacità di comprensione spaziale sono meno esplorate. Questo lavoro indaga una questione cruciale: i MLLM esistenti possiedono abilità di percezione e comprensione spaziale 3D? Nello specifico, in questo articolo facciamo i seguenti contributi: (i) introduciamo VGBench, un benchmark progettato specificamente per valutare i MLLM nella percezione della geometria visiva, ad esempio nella stima della posa della telecamera e del movimento; (ii) proponiamo SpatialScore, il benchmark più completo e diversificato per la comprensione spaziale multimodale fino ad oggi, integrando VGBench con dati rilevanti provenienti da altri 11 dataset esistenti. Questo benchmark comprende 28K campioni su vari compiti di comprensione spaziale, modalità e formati di domande e risposte, insieme a un sottoinsieme accuratamente selezionato e impegnativo, SpatialScore-Hard; (iii) sviluppiamo SpatialAgent, un innovativo sistema multi-agente che incorpora 9 strumenti specializzati per la comprensione spaziale, supportando sia i paradigmi di ragionamento Plan-Execute che ReAct; (iv) conduciamo valutazioni estensive per rivelare le persistenti sfide nel ragionamento spaziale, dimostrando al contempo l'efficacia di SpatialAgent. Crediamo che SpatialScore offrirà preziose intuizioni e servirà come un rigoroso benchmark per la prossima evoluzione dei MLLM.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.