SpatialScore: К унифицированной оценке мультимодального пространственного понимания
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Авторы: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) достигли впечатляющих успехов в задачах ответов на вопросы, однако их способности к пространственному пониманию изучены в меньшей степени. В данной работе исследуется ключевой вопрос: обладают ли существующие MLLMs способностями к восприятию и пониманию трехмерного пространства? Конкретно, мы делаем следующие вклады в этой статье: (i) мы представляем VGBench, бенчмарк, специально разработанный для оценки MLLMs в задачах восприятия визуальной геометрии, таких как оценка позы камеры и движения; (ii) мы предлагаем SpatialScore, наиболее полный и разнообразный на сегодняшний день бенчмарк для мультимодального пространственного понимания, интегрирующий VGBench с релевантными данными из 11 других существующих наборов данных. Этот бенчмарк включает 28 тысяч образцов, охватывающих различные задачи пространственного понимания, модальности и форматы вопросов-ответов, а также тщательно отобранный сложный подмножество, SpatialScore-Hard; (iii) мы разрабатываем SpatialAgent, новую мультиагентную систему, включающую 9 специализированных инструментов для пространственного понимания, поддерживающую как парадигмы Plan-Execute, так и ReAct; (iv) мы проводим обширные оценки, чтобы выявить сохраняющиеся проблемы в пространственном рассуждении, одновременно демонстрируя эффективность SpatialAgent. Мы считаем, что SpatialScore предоставит ценные инсайты и станет строгим бенчмарком для следующего этапа эволюции MLLMs.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.Summary
AI-Generated Summary