SpatialScore: Hacia una Evaluación Unificada para la Comprensión Espacial Multimodal
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
May 22, 2025
Autores: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado un éxito impresionante en tareas de preguntas y respuestas, aunque sus capacidades para la comprensión espacial han sido menos exploradas. Este trabajo investiga una pregunta crítica: ¿poseen los MLLMs existentes habilidades de percepción y comprensión espacial en 3D? Concretamente, realizamos las siguientes contribuciones en este artículo: (i) presentamos VGBench, un punto de referencia diseñado específicamente para evaluar MLLMs en la percepción de geometría visual, como la estimación de la pose de la cámara y el movimiento; (ii) proponemos SpatialScore, el punto de referencia más completo y diverso hasta la fecha para la comprensión espacial multimodal, integrando VGBench con datos relevantes de otros 11 conjuntos de datos existentes. Este punto de referencia incluye 28K muestras en diversas tareas de comprensión espacial, modalidades y formatos de preguntas y respuestas, junto con un subconjunto cuidadosamente seleccionado y desafiante, SpatialScore-Hard; (iii) desarrollamos SpatialAgent, un novedoso sistema multiagente que incorpora 9 herramientas especializadas para la comprensión espacial, compatible con los paradigmas de razonamiento Plan-Ejecutar y ReAct; (iv) realizamos evaluaciones exhaustivas que revelan desafíos persistentes en el razonamiento espacial, al mismo tiempo que demostramos la efectividad de SpatialAgent. Creemos que SpatialScore ofrecerá insights valiosos y servirá como un punto de referencia riguroso para la próxima evolución de los MLLMs.
English
Multimodal large language models (MLLMs) have achieved impressive success in
question-answering tasks, yet their capabilities for spatial understanding are
less explored. This work investigates a critical question: do existing MLLMs
possess 3D spatial perception and understanding abilities? Concretely, we make
the following contributions in this paper: (i) we introduce VGBench, a
benchmark specifically designed to assess MLLMs for visual geometry perception,
e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most
comprehensive and diverse multimodal spatial understanding benchmark to date,
integrating VGBench with relevant data from the other 11 existing datasets.
This benchmark comprises 28K samples across various spatial understanding
tasks, modalities, and QA formats, along with a carefully curated challenging
subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent
system incorporating 9 specialized tools for spatial understanding, supporting
both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive
evaluations to reveal persistent challenges in spatial reasoning while
demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will
offer valuable insights and serve as a rigorous benchmark for the next
evolution of MLLMs.Summary
AI-Generated Summary