¿Qué tan lejos están los Modelos de Lenguaje Visual de la Inteligencia Espacial Visual? Una Perspectiva Basada en Evaluaciones Comparativas
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
September 23, 2025
Autores: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu
cs.AI
Resumen
El razonamiento visual espacial (VSR, por sus siglas en inglés) es una capacidad cognitiva humana fundamental y un requisito crítico para avanzar en la inteligencia encarnada y los sistemas autónomos. A pesar del progreso reciente en los modelos de visión y lenguaje (VLMs), alcanzar un nivel humano en VSR sigue siendo un desafío considerable debido a la complejidad de representar y razonar sobre el espacio tridimensional. En este artículo, presentamos una investigación sistemática del VSR en los VLMs, que abarca una revisión de las metodologías existentes en cuanto a modalidades de entrada, arquitecturas de modelos, estrategias de entrenamiento y mecanismos de razonamiento. Además, categorizamos la inteligencia espacial en tres niveles de capacidad: percepción básica, comprensión espacial y planificación espacial, y creamos SIBench, un benchmark de inteligencia espacial que incluye cerca de 20 conjuntos de datos de código abierto en 23 configuraciones de tareas. Los experimentos con los VLMs más avanzados revelan una brecha pronunciada entre la percepción y el razonamiento, ya que los modelos muestran competencia en tareas perceptivas básicas, pero consistentemente tienen un rendimiento inferior en tareas de comprensión y planificación, particularmente en estimación numérica, razonamiento multivista, dinámica temporal e imaginación espacial. Estos hallazgos subrayan los desafíos sustanciales que persisten en la consecución de la inteligencia espacial, al mismo tiempo que proporcionan tanto una hoja de ruta sistemática como un benchmark integral para impulsar futuras investigaciones en este campo. Los recursos relacionados con este estudio están disponibles en https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
English
Visual Spatial Reasoning (VSR) is a core human cognitive ability and a
critical requirement for advancing embodied intelligence and autonomous
systems. Despite recent progress in Vision-Language Models (VLMs), achieving
human-level VSR remains highly challenging due to the complexity of
representing and reasoning over three-dimensional space. In this paper, we
present a systematic investigation of VSR in VLMs, encompassing a review of
existing methodologies across input modalities, model architectures, training
strategies, and reasoning mechanisms. Furthermore, we categorize spatial
intelligence into three levels of capability, ie, basic perception, spatial
understanding, spatial planning, and curate SIBench, a spatial intelligence
benchmark encompassing nearly 20 open-source datasets across 23 task settings.
Experiments with state-of-the-art VLMs reveal a pronounced gap between
perception and reasoning, as models show competence in basic perceptual tasks
but consistently underperform in understanding and planning tasks, particularly
in numerical estimation, multi-view reasoning, temporal dynamics, and spatial
imagination. These findings underscore the substantial challenges that remain
in achieving spatial intelligence, while providing both a systematic roadmap
and a comprehensive benchmark to drive future research in the field. The
related resources of this study are accessible at
https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.