SpatialScore: 다중모달 공간 이해를 위한 통합 평가 프레임워크
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
저자: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 질의응답 작업에서 인상적인 성과를 거두었지만, 공간 이해 능력에 대한 연구는 상대적으로 덜 진행되었습니다. 본 연구는 기존 MLLMs가 3D 공간 인식 및 이해 능력을 갖추고 있는지에 대한 중요한 질문을 탐구합니다. 구체적으로, 본 논문에서는 다음과 같은 기여를 합니다: (i) 시각적 기하학 인식(예: 카메라 포즈 및 모션 추정)을 평가하기 위해 특별히 설계된 벤치마크인 VGBench를 소개합니다; (ii) VGBench와 기존 11개 데이터셋의 관련 데이터를 통합한, 가장 포괄적이고 다양한 멀티모달 공간 이해 벤치마크인 SpatialScore를 제안합니다. 이 벤치마크는 다양한 공간 이해 작업, 모달리티, 질의응답 형식에 걸친 28K 샘플과 신중하게 선별된 도전적인 하위 집합인 SpatialScore-Hard로 구성됩니다; (iii) Plan-Execute 및 ReAct 추론 패러다임을 모두 지원하는 9개의 전문 도구를 통합한 새로운 다중 에이전트 시스템인 SpatialAgent를 개발합니다; (iv) 공간 추론에서 지속적인 도전 과제를 밝히고 SpatialAgent의 효과성을 입증하기 위한 광범위한 평가를 수행합니다. 우리는 SpatialScore가 MLLMs의 다음 진화를 위한 엄격한 벤치마크로써 가치 있는 통찰을 제공할 것이라 믿습니다.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.Summary
AI-Generated Summary