OmniSpatial: Hacia un Benchmark Integral de Razonamiento Espacial para Modelos de Lenguaje y Visión

Resumen

El razonamiento espacial es un aspecto clave de la psicología cognitiva y sigue siendo un cuello de botella importante para los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Aunque se ha realizado una extensa investigación para evaluar o mejorar la comprensión de los VLMs sobre relaciones espaciales básicas, como distinguir izquierda de derecha, cerca de lejos y el conteo de objetos, estas tareas representan solo el nivel más fundamental del razonamiento espacial. En este trabajo, presentamos OmniSpatial, un punto de referencia integral y desafiante para el razonamiento espacial, basado en la psicología cognitiva. OmniSpatial abarca cuatro categorías principales: razonamiento dinámico, lógica espacial compleja, interacción espacial y toma de perspectiva, con 50 subcategorías detalladas. Mediante la recopilación de datos en Internet y una cuidadosa anotación manual, construimos más de 1.5K pares de preguntas y respuestas. Experimentos extensos muestran que tanto los VLMs de código abierto como los de código cerrado, así como los modelos existentes de razonamiento y comprensión espacial, presentan limitaciones significativas en la comprensión espacial integral. Además, analizamos casos de fallo y proponemos posibles direcciones para futuras investigaciones.

English

Spatial reasoning is a key aspect of cognitive psychology and remains a major bottleneck for current vision-language models (VLMs). While extensive research has aimed to evaluate or improve VLMs' understanding of basic spatial relations, such as distinguishing left from right, near from far, and object counting, these tasks represent only the most fundamental level of spatial reasoning. In this work, we introduce OmniSpatial, a comprehensive and challenging benchmark for spatial reasoning, grounded in cognitive psychology. OmniSpatial covers four major categories: dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking, with 50 fine-grained subcategories. Through Internet data crawling and careful manual annotation, we construct over 1.5K question-answer pairs. Extensive experiments show that both open- and closed-source VLMs, as well as existing reasoning and spatial understanding models, exhibit significant limitations in comprehensive spatial understanding. We further analyze failure cases and propose potential directions for future research.

OmniSpatial: Hacia un Benchmark Integral de Razonamiento Espacial para Modelos de Lenguaje y Visión

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Resumen

Support