SpatialScore: マルチモーダル空間理解のための統一評価指標に向けて
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
著者: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は質問応答タスクにおいて目覚ましい成功を収めているが、空間理解能力についてはまだ十分に探求されていない。本研究では、既存のMLLMsが3D空間知覚と理解能力を有しているかどうかという重要な問いを調査する。具体的には、本論文で以下の貢献を行う:(i) 視覚的幾何学知覚(例えば、カメラポーズやモーション推定)を評価するために特別に設計されたベンチマーク「VGBench」を導入する;(ii) これまでで最も包括的かつ多様なマルチモーダル空間理解ベンチマーク「SpatialScore」を提案し、VGBenchと他の11の既存データセットから関連データを統合する。このベンチマークは、様々な空間理解タスク、モダリティ、QA形式にわたる28Kのサンプルと、慎重に選ばれた難易度の高いサブセット「SpatialScore-Hard」を含む;(iii) 空間理解のための9つの専門ツールを組み込んだ新しいマルチエージェントシステム「SpatialAgent」を開発し、Plan-ExecuteとReActの推論パラダイムをサポートする;(iv) 空間推論における持続的な課題を明らかにするとともに、SpatialAgentの有効性を示すための広範な評価を実施する。我々は、SpatialScoreが次世代のMLLMsの進化に向けた貴重な洞察を提供し、厳格なベンチマークとして機能すると確信している。
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.Summary
AI-Generated Summary