SpatialScore : Vers une évaluation unifiée pour la compréhension spatiale multimodale
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Auteurs: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont obtenu des succès impressionnants dans les tâches de question-réponse, mais leurs capacités en matière de compréhension spatiale sont moins explorées. Ce travail examine une question cruciale : les MLLMs existants possèdent-ils des capacités de perception et de compréhension spatiale en 3D ? Concrètement, nous apportons les contributions suivantes dans cet article : (i) nous introduisons VGBench, un benchmark spécifiquement conçu pour évaluer les MLLMs sur la perception de la géométrie visuelle, par exemple l'estimation de la pose de la caméra et du mouvement ; (ii) nous proposons SpatialScore, le benchmark de compréhension spatiale multimodale le plus complet et diversifié à ce jour, intégrant VGBench avec des données pertinentes provenant de 11 autres ensembles de données existants. Ce benchmark comprend 28 000 échantillons couvrant diverses tâches de compréhension spatiale, modalités et formats de question-réponse, ainsi qu'un sous-ensemble difficile soigneusement sélectionné, SpatialScore-Hard ; (iii) nous développons SpatialAgent, un nouveau système multi-agents intégrant 9 outils spécialisés pour la compréhension spatiale, prenant en charge à la fois les paradigmes de raisonnement Plan-Execute et ReAct ; (iv) nous menons des évaluations approfondies pour révéler les défis persistants en matière de raisonnement spatial tout en démontrant l'efficacité de SpatialAgent. Nous croyons que SpatialScore offrira des insights précieux et servira de benchmark rigoureux pour la prochaine évolution des MLLMs.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.Summary
AI-Generated Summary