OmniSpatial: Auf dem Weg zu einem umfassenden Benchmark für räumliches Denken in visuell-sprachlichen Modellen

papers.abstract

Räumliches Denken ist ein zentraler Aspekt der kognitiven Psychologie und bleibt ein wesentlicher Engpass für aktuelle Vision-Language-Modelle (VLMs). Während umfangreiche Forschung darauf abzielt, das Verständnis von VLMs für grundlegende räumliche Beziehungen zu bewerten oder zu verbessern, wie beispielsweise die Unterscheidung von links und rechts, nah und fern sowie das Zählen von Objekten, repräsentieren diese Aufgaben lediglich die grundlegendste Ebene des räumlichen Denkens. In dieser Arbeit stellen wir OmniSpatial vor, einen umfassenden und anspruchsvollen Benchmark für räumliches Denken, der in der kognitiven Psychologie verankert ist. OmniSpatial deckt vier Hauptkategorien ab: dynamisches Denken, komplexe räumliche Logik, räumliche Interaktion und Perspektivenübernahme, mit 50 fein abgestuften Unterkategorien. Durch das Crawlen von Internetdaten und sorgfältige manuelle Annotation konstruieren wir über 1.500 Frage-Antwort-Paare. Umfangreiche Experimente zeigen, dass sowohl Open-Source- als auch Closed-Source-VLMs sowie bestehende Modelle für logisches und räumliches Verständnis erhebliche Einschränkungen im umfassenden räumlichen Verständnis aufweisen. Wir analysieren weiterhin Fehlerfälle und schlagen potenzielle Richtungen für zukünftige Forschung vor.

English

Spatial reasoning is a key aspect of cognitive psychology and remains a major bottleneck for current vision-language models (VLMs). While extensive research has aimed to evaluate or improve VLMs' understanding of basic spatial relations, such as distinguishing left from right, near from far, and object counting, these tasks represent only the most fundamental level of spatial reasoning. In this work, we introduce OmniSpatial, a comprehensive and challenging benchmark for spatial reasoning, grounded in cognitive psychology. OmniSpatial covers four major categories: dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking, with 50 fine-grained subcategories. Through Internet data crawling and careful manual annotation, we construct over 1.5K question-answer pairs. Extensive experiments show that both open- and closed-source VLMs, as well as existing reasoning and spatial understanding models, exhibit significant limitations in comprehensive spatial understanding. We further analyze failure cases and propose potential directions for future research.

OmniSpatial: Auf dem Weg zu einem umfassenden Benchmark für räumliches Denken in visuell-sprachlichen Modellen

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

papers.abstract

Support