SpatiaLab : Les modèles vision-langage peuvent-ils raisonner spatialement dans des conditions réelles ?
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
February 3, 2026
papers.authors: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez
cs.AI
papers.abstract
Le raisonnement spatial est un aspect fondamental de la cognition humaine, mais il reste un défi majeur pour les modèles vision-langage (VLM) contemporains. Les travaux antérieurs reposaient largement sur des environnements synthétiques ou générés par LLM, avec des conceptions de tâches limitées et des configurations proches de casse-têtes, ne parvenant pas à capturer la complexité du monde réel, le bruit visuel et les relations spatiales diverses auxquels les VLMs sont confrontés. Pour remédier à cela, nous présentons SpatiaLab, un benchmark complet pour évaluer le raisonnement spatial des VLMs dans des contextes réalistes et non contraints. SpatiaLab comprend 1 400 paires question-réponse visuelles réparties en six catégories principales : Positionnement Relatif, Profondeur et Occlusion, Orientation, Taille et Échelle, Navigation Spatiale et Géométrie 3D, chacune avec cinq sous-catégories, soit 30 types de tâches distincts. Chaque sous-catégorie contient au moins 25 questions, et chaque catégorie principale comprend au moins 200 questions, supportant une évaluation à choix multiples et ouverte. Des expériences sur diverses VLMs de pointe, incluant des modèles open-source et propriétaires, des modèles axés sur le raisonnement et des modèles spécialisés en raisonnement spatial, révèlent un écart substantiel dans les capacités de raisonnement spatial par rapport aux humains. Dans le cadre à choix multiples, InternVL3.5-72B atteint une précision de 54,93 % contre 87,57 % pour les humains. Dans le cadre à réponses ouvertes, tous les modèles montrent une baisse de performance d'environ 10 à 25 %, GPT-5-mini obtenant le score le plus élevé à 40,93 % contre 64,93 % pour les humains. Ces résultats mettent en lumière des limitations clés dans la gestion des relations spatiales complexes, la perception de la profondeur, la navigation et la géométrie 3D. En fournissant un cadre d'évaluation diversifié et ancré dans le monde réel, SpatiaLab expose des défis et des opportunités critiques pour faire progresser le raisonnement spatial des VLMs, offrant un benchmark pour guider les recherches futures vers une compréhension spatiale robuste et alignée avec l'humain. SpatiaLab est disponible à l'adresse : https://spatialab-reasoning.github.io/.
English
Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.