OmniSpatial: Hacia un Benchmark Integral de Razonamiento Espacial para Modelos de Lenguaje y Visión
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
June 3, 2025
Autores: Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
cs.AI
Resumen
El razonamiento espacial es un aspecto clave de la psicología cognitiva y sigue siendo un cuello de botella importante para los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Aunque se ha realizado una extensa investigación para evaluar o mejorar la comprensión de los VLMs sobre relaciones espaciales básicas, como distinguir izquierda de derecha, cerca de lejos y el conteo de objetos, estas tareas representan solo el nivel más fundamental del razonamiento espacial. En este trabajo, presentamos OmniSpatial, un punto de referencia integral y desafiante para el razonamiento espacial, basado en la psicología cognitiva. OmniSpatial abarca cuatro categorías principales: razonamiento dinámico, lógica espacial compleja, interacción espacial y toma de perspectiva, con 50 subcategorías detalladas. Mediante la recopilación de datos en Internet y una cuidadosa anotación manual, construimos más de 1.5K pares de preguntas y respuestas. Experimentos extensos muestran que tanto los VLMs de código abierto como los de código cerrado, así como los modelos existentes de razonamiento y comprensión espacial, presentan limitaciones significativas en la comprensión espacial integral. Además, analizamos casos de fallo y proponemos posibles direcciones para futuras investigaciones.
English
Spatial reasoning is a key aspect of cognitive psychology and remains a major
bottleneck for current vision-language models (VLMs). While extensive research
has aimed to evaluate or improve VLMs' understanding of basic spatial
relations, such as distinguishing left from right, near from far, and object
counting, these tasks represent only the most fundamental level of spatial
reasoning. In this work, we introduce OmniSpatial, a comprehensive and
challenging benchmark for spatial reasoning, grounded in cognitive psychology.
OmniSpatial covers four major categories: dynamic reasoning, complex spatial
logic, spatial interaction, and perspective-taking, with 50 fine-grained
subcategories. Through Internet data crawling and careful manual annotation, we
construct over 1.5K question-answer pairs. Extensive experiments show that both
open- and closed-source VLMs, as well as existing reasoning and spatial
understanding models, exhibit significant limitations in comprehensive spatial
understanding. We further analyze failure cases and propose potential
directions for future research.