OmniSpatial : Vers un Benchmark Exhaustif de Raisonnement Spatial pour les Modèles de Vision et Langage
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
June 3, 2025
Auteurs: Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
cs.AI
Résumé
Le raisonnement spatial est un aspect clé de la psychologie cognitive et reste un goulot d'étranglement majeur pour les modèles vision-langage (VLMs) actuels. Bien que des recherches approfondies aient visé à évaluer ou à améliorer la compréhension des relations spatiales de base par les VLMs, comme distinguer la gauche de la droite, le proche du lointain, et le comptage d'objets, ces tâches ne représentent que le niveau le plus fondamental du raisonnement spatial. Dans ce travail, nous présentons OmniSpatial, un benchmark complet et exigeant pour le raisonnement spatial, ancré dans la psychologie cognitive. OmniSpatial couvre quatre catégories principales : le raisonnement dynamique, la logique spatiale complexe, l'interaction spatiale et la prise de perspective, avec 50 sous-catégories fines. Grâce à l'exploration de données sur Internet et à une annotation manuelle minutieuse, nous avons construit plus de 1 500 paires de questions-réponses. Des expériences approfondies montrent que les VLMs open-source et propriétaires, ainsi que les modèles existants de raisonnement et de compréhension spatiale, présentent des limitations significatives dans la compréhension spatiale globale. Nous analysons en outre les cas d'échec et proposons des pistes potentielles pour les recherches futures.
English
Spatial reasoning is a key aspect of cognitive psychology and remains a major
bottleneck for current vision-language models (VLMs). While extensive research
has aimed to evaluate or improve VLMs' understanding of basic spatial
relations, such as distinguishing left from right, near from far, and object
counting, these tasks represent only the most fundamental level of spatial
reasoning. In this work, we introduce OmniSpatial, a comprehensive and
challenging benchmark for spatial reasoning, grounded in cognitive psychology.
OmniSpatial covers four major categories: dynamic reasoning, complex spatial
logic, spatial interaction, and perspective-taking, with 50 fine-grained
subcategories. Through Internet data crawling and careful manual annotation, we
construct over 1.5K question-answer pairs. Extensive experiments show that both
open- and closed-source VLMs, as well as existing reasoning and spatial
understanding models, exhibit significant limitations in comprehensive spatial
understanding. We further analyze failure cases and propose potential
directions for future research.