¿Qué tan lejos están los Modelos de Lenguaje Visual de la Inteligencia Espacial Visual? Una Perspectiva Basada en Evaluaciones Comparativas

Resumen

El razonamiento visual espacial (VSR, por sus siglas en inglés) es una capacidad cognitiva humana fundamental y un requisito crítico para avanzar en la inteligencia encarnada y los sistemas autónomos. A pesar del progreso reciente en los modelos de visión y lenguaje (VLMs), alcanzar un nivel humano en VSR sigue siendo un desafío considerable debido a la complejidad de representar y razonar sobre el espacio tridimensional. En este artículo, presentamos una investigación sistemática del VSR en los VLMs, que abarca una revisión de las metodologías existentes en cuanto a modalidades de entrada, arquitecturas de modelos, estrategias de entrenamiento y mecanismos de razonamiento. Además, categorizamos la inteligencia espacial en tres niveles de capacidad: percepción básica, comprensión espacial y planificación espacial, y creamos SIBench, un benchmark de inteligencia espacial que incluye cerca de 20 conjuntos de datos de código abierto en 23 configuraciones de tareas. Los experimentos con los VLMs más avanzados revelan una brecha pronunciada entre la percepción y el razonamiento, ya que los modelos muestran competencia en tareas perceptivas básicas, pero consistentemente tienen un rendimiento inferior en tareas de comprensión y planificación, particularmente en estimación numérica, razonamiento multivista, dinámica temporal e imaginación espacial. Estos hallazgos subrayan los desafíos sustanciales que persisten en la consecución de la inteligencia espacial, al mismo tiempo que proporcionan tanto una hoja de ruta sistemática como un benchmark integral para impulsar futuras investigaciones en este campo. Los recursos relacionados con este estudio están disponibles en https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.

English

Visual Spatial Reasoning (VSR) is a core human cognitive ability and a critical requirement for advancing embodied intelligence and autonomous systems. Despite recent progress in Vision-Language Models (VLMs), achieving human-level VSR remains highly challenging due to the complexity of representing and reasoning over three-dimensional space. In this paper, we present a systematic investigation of VSR in VLMs, encompassing a review of existing methodologies across input modalities, model architectures, training strategies, and reasoning mechanisms. Furthermore, we categorize spatial intelligence into three levels of capability, ie, basic perception, spatial understanding, spatial planning, and curate SIBench, a spatial intelligence benchmark encompassing nearly 20 open-source datasets across 23 task settings. Experiments with state-of-the-art VLMs reveal a pronounced gap between perception and reasoning, as models show competence in basic perceptual tasks but consistently underperform in understanding and planning tasks, particularly in numerical estimation, multi-view reasoning, temporal dynamics, and spatial imagination. These findings underscore the substantial challenges that remain in achieving spatial intelligence, while providing both a systematic roadmap and a comprehensive benchmark to drive future research in the field. The related resources of this study are accessible at https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.

¿Qué tan lejos están los Modelos de Lenguaje Visual de la Inteligencia Espacial Visual? Una Perspectiva Basada en Evaluaciones Comparativas

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

Resumen

Support