SpatiaLab: Können Vision-Language-Models räumliches Denken in natürlicher Umgebung durchführen?
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
February 3, 2026
papers.authors: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez
cs.AI
papers.abstract
Räumliches Denken ist ein grundlegender Aspekt der menschlichen Kognition, stellt jedoch nach wie vor eine große Herausforderung für zeitgenössische Vision-Language-Modelle (VLMs) dar. Bisherige Arbeiten stützten sich weitgehend auf synthetische oder von LLMs generierte Umgebungen mit begrenzten Aufgabendesigns und rätselartigen Arrangements, die es nicht schaffen, die reale Komplexität, visuelle Störfaktoren und vielfältige räumliche Beziehungen, auf die VLMs treffen, abzubilden. Um dies zu adressieren, stellen wir SpatiaLab vor, einen umfassenden Benchmark zur Bewertung des räumlichen Denkens von VLMs in realistischen, uneingeschränkten Kontexten. SpatiaLab umfasst 1.400 visuelle Frage-Antwort-Paare aus sechs Hauptkategorien: Relative Positionierung, Tiefe & Verdeckung, Ausrichtung, Größe & Maßstab, Räumliche Navigation und 3D-Geometrie, wobei jede Kategorie fünf Unterkategorien aufweist, was 30 verschiedene Aufgabentypen ergibt. Jede Unterkategorie enthält mindestens 25 Fragen, und jede Hauptkategorie umfasst mindestens 200 Fragen, was sowohl Multiple-Choice- als auch freie Bewertungen unterstützt. Experimente mit verschiedenen state-of-the-art VLMs, einschließlich Open- und Closed-Source-Modellen, reasoning-fokussierten und spezialisierten Modellen für räumliches Denken, zeigen eine erhebliche Lücke in den räumlichen Denkfähigkeiten im Vergleich zum Menschen. Im Multiple-Choice-Setup erreicht InternVL3.5-72B eine Genauigkeit von 54,93 % gegenüber 87,57 % beim Menschen. Im freien Antwortformat zeigen alle Modelle einen Leistungsabfall von etwa 10–25 %, wobei GPT-5-mini mit 40,93 % am höchsten abschneidet, verglichen mit 64,93 % beim Menschen. Diese Ergebnisse verdeutlichen zentrale Schwächen im Umgang mit komplexen räumlichen Beziehungen, Tiefenwahrnehmung, Navigation und 3D-Geometrie. Indem SpatiaLab einen vielfältigen, realweltlichen Bewertungsrahmen bietet, legt es kritische Herausforderungen und Chancen für die Weiterentwicklung des räumlichen Denkens von VLMs offen und stellt einen Benchmark bereit, um zukünftige Forschung in Richtung eines robusten, menschenähnlichen räumlichen Verständnisses zu lenken. SpatiaLab ist verfügbar unter: https://spatialab-reasoning.github.io/.
English
Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.