SpatialScore: Rumo a uma Avaliação Unificada para Compreensão Espacial Multimodal
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Autores: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs) têm alcançado sucesso impressionante em tarefas de questionamento e resposta, mas suas capacidades para compreensão espacial são menos exploradas. Este trabalho investiga uma questão crítica: os MLLMs existentes possuem habilidades de percepção e compreensão espacial 3D? Concretamente, fazemos as seguintes contribuições neste artigo: (i) introduzimos o VGBench, um benchmark projetado especificamente para avaliar MLLMs em percepção de geometria visual, como estimativa de pose de câmera e movimento; (ii) propomos o SpatialScore, o benchmark mais abrangente e diversificado até hoje para compreensão espacial multimodal, integrando o VGBench com dados relevantes de outros 11 conjuntos de dados existentes. Este benchmark compreende 28K amostras em várias tarefas de compreensão espacial, modalidades e formatos de QA, juntamente com um subconjunto desafiador cuidadosamente selecionado, o SpatialScore-Hard; (iii) desenvolvemos o SpatialAgent, um sistema multiagente inovador que incorpora 9 ferramentas especializadas para compreensão espacial, suportando tanto os paradigmas de raciocínio Plan-Execute quanto ReAct; (iv) realizamos avaliações extensas para revelar desafios persistentes no raciocínio espacial, ao mesmo tempo em que demonstramos a eficácia do SpatialAgent. Acreditamos que o SpatialScore oferecerá insights valiosos e servirá como um benchmark rigoroso para a próxima evolução dos MLLMs.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.