À quelle distance les modèles de langage visuel (VLMs) se trouvent-ils de l'intelligence spatiale visuelle ? Une perspective basée sur des benchmarks
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
September 23, 2025
papers.authors: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu
cs.AI
papers.abstract
Le raisonnement visuo-spatial (VSR) est une capacité cognitive humaine fondamentale et une exigence critique pour faire progresser l'intelligence incarnée et les systèmes autonomes. Malgré les récents progrès des modèles vision-langage (VLMs), atteindre un niveau de VSR comparable à celui des humains reste extrêmement difficile en raison de la complexité inhérente à la représentation et au raisonnement dans un espace tridimensionnel. Dans cet article, nous présentons une investigation systématique du VSR dans les VLMs, comprenant une revue des méthodologies existantes à travers les modalités d'entrée, les architectures de modèles, les stratégies d'entraînement et les mécanismes de raisonnement. De plus, nous catégorisons l'intelligence spatiale en trois niveaux de capacité, à savoir la perception de base, la compréhension spatiale et la planification spatiale, et nous créons SIBench, un benchmark d'intelligence spatiale englobant près de 20 ensembles de données open-source couvrant 23 scénarios de tâches. Les expériences menées avec les VLMs les plus avancés révèlent un écart marqué entre la perception et le raisonnement, les modèles montrant des compétences dans les tâches perceptuelles de base mais sous-performant systématiquement dans les tâches de compréhension et de planification, en particulier dans l'estimation numérique, le raisonnement multi-vues, la dynamique temporelle et l'imagination spatiale. Ces résultats soulignent les défis substantiels qui subsistent dans la réalisation de l'intelligence spatiale, tout en fournissant à la fois une feuille de route systématique et un benchmark complet pour orienter les recherches futures dans ce domaine. Les ressources associées à cette étude sont accessibles à l'adresse suivante : https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
English
Visual Spatial Reasoning (VSR) is a core human cognitive ability and a
critical requirement for advancing embodied intelligence and autonomous
systems. Despite recent progress in Vision-Language Models (VLMs), achieving
human-level VSR remains highly challenging due to the complexity of
representing and reasoning over three-dimensional space. In this paper, we
present a systematic investigation of VSR in VLMs, encompassing a review of
existing methodologies across input modalities, model architectures, training
strategies, and reasoning mechanisms. Furthermore, we categorize spatial
intelligence into three levels of capability, ie, basic perception, spatial
understanding, spatial planning, and curate SIBench, a spatial intelligence
benchmark encompassing nearly 20 open-source datasets across 23 task settings.
Experiments with state-of-the-art VLMs reveal a pronounced gap between
perception and reasoning, as models show competence in basic perceptual tasks
but consistently underperform in understanding and planning tasks, particularly
in numerical estimation, multi-view reasoning, temporal dynamics, and spatial
imagination. These findings underscore the substantial challenges that remain
in achieving spatial intelligence, while providing both a systematic roadmap
and a comprehensive benchmark to drive future research in the field. The
related resources of this study are accessible at
https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.