OmniSpatial : Vers un Benchmark Exhaustif de Raisonnement Spatial pour les Modèles de Vision et Langage

papers.abstract

Le raisonnement spatial est un aspect clé de la psychologie cognitive et reste un goulot d'étranglement majeur pour les modèles vision-langage (VLMs) actuels. Bien que des recherches approfondies aient visé à évaluer ou à améliorer la compréhension des relations spatiales de base par les VLMs, comme distinguer la gauche de la droite, le proche du lointain, et le comptage d'objets, ces tâches ne représentent que le niveau le plus fondamental du raisonnement spatial. Dans ce travail, nous présentons OmniSpatial, un benchmark complet et exigeant pour le raisonnement spatial, ancré dans la psychologie cognitive. OmniSpatial couvre quatre catégories principales : le raisonnement dynamique, la logique spatiale complexe, l'interaction spatiale et la prise de perspective, avec 50 sous-catégories fines. Grâce à l'exploration de données sur Internet et à une annotation manuelle minutieuse, nous avons construit plus de 1 500 paires de questions-réponses. Des expériences approfondies montrent que les VLMs open-source et propriétaires, ainsi que les modèles existants de raisonnement et de compréhension spatiale, présentent des limitations significatives dans la compréhension spatiale globale. Nous analysons en outre les cas d'échec et proposons des pistes potentielles pour les recherches futures.

English

Spatial reasoning is a key aspect of cognitive psychology and remains a major bottleneck for current vision-language models (VLMs). While extensive research has aimed to evaluate or improve VLMs' understanding of basic spatial relations, such as distinguishing left from right, near from far, and object counting, these tasks represent only the most fundamental level of spatial reasoning. In this work, we introduce OmniSpatial, a comprehensive and challenging benchmark for spatial reasoning, grounded in cognitive psychology. OmniSpatial covers four major categories: dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking, with 50 fine-grained subcategories. Through Internet data crawling and careful manual annotation, we construct over 1.5K question-answer pairs. Extensive experiments show that both open- and closed-source VLMs, as well as existing reasoning and spatial understanding models, exhibit significant limitations in comprehensive spatial understanding. We further analyze failure cases and propose potential directions for future research.

OmniSpatial : Vers un Benchmark Exhaustif de Raisonnement Spatial pour les Modèles de Vision et Langage

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

papers.abstract

Support