OmniSpatial: Auf dem Weg zu einem umfassenden Benchmark für räumliches Denken in visuell-sprachlichen Modellen
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
June 3, 2025
Autoren: Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
cs.AI
Zusammenfassung
Räumliches Denken ist ein zentraler Aspekt der kognitiven Psychologie und bleibt ein wesentlicher Engpass für aktuelle Vision-Language-Modelle (VLMs). Während umfangreiche Forschung darauf abzielt, das Verständnis von VLMs für grundlegende räumliche Beziehungen zu bewerten oder zu verbessern, wie beispielsweise die Unterscheidung von links und rechts, nah und fern sowie das Zählen von Objekten, repräsentieren diese Aufgaben lediglich die grundlegendste Ebene des räumlichen Denkens. In dieser Arbeit stellen wir OmniSpatial vor, einen umfassenden und anspruchsvollen Benchmark für räumliches Denken, der in der kognitiven Psychologie verankert ist. OmniSpatial deckt vier Hauptkategorien ab: dynamisches Denken, komplexe räumliche Logik, räumliche Interaktion und Perspektivenübernahme, mit 50 fein abgestuften Unterkategorien. Durch das Crawlen von Internetdaten und sorgfältige manuelle Annotation konstruieren wir über 1.500 Frage-Antwort-Paare. Umfangreiche Experimente zeigen, dass sowohl Open-Source- als auch Closed-Source-VLMs sowie bestehende Modelle für logisches und räumliches Verständnis erhebliche Einschränkungen im umfassenden räumlichen Verständnis aufweisen. Wir analysieren weiterhin Fehlerfälle und schlagen potenzielle Richtungen für zukünftige Forschung vor.
English
Spatial reasoning is a key aspect of cognitive psychology and remains a major
bottleneck for current vision-language models (VLMs). While extensive research
has aimed to evaluate or improve VLMs' understanding of basic spatial
relations, such as distinguishing left from right, near from far, and object
counting, these tasks represent only the most fundamental level of spatial
reasoning. In this work, we introduce OmniSpatial, a comprehensive and
challenging benchmark for spatial reasoning, grounded in cognitive psychology.
OmniSpatial covers four major categories: dynamic reasoning, complex spatial
logic, spatial interaction, and perspective-taking, with 50 fine-grained
subcategories. Through Internet data crawling and careful manual annotation, we
construct over 1.5K question-answer pairs. Extensive experiments show that both
open- and closed-source VLMs, as well as existing reasoning and spatial
understanding models, exhibit significant limitations in comprehensive spatial
understanding. We further analyze failure cases and propose potential
directions for future research.