ChatPaper.aiChatPaper

SpatiaLab: Kunnen Vision-Language Modellen Ruimtelijk Redeneren in de Praktijk?

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

February 3, 2026
Auteurs: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez
cs.AI

Samenvatting

Ruimtelijk redeneren is een fundamenteel aspect van het menselijk cognitief vermogen, maar vormt nog steeds een grote uitdaging voor hedendaagse vision-language modellen (VLM's). Eerder onderzoek baseerde zich voornamelijk op synthetische of door LLM's gegenereerde omgevingen met beperkte taakontwerpen en puzzelachtige opzetten, waardoor de complexiteit, visuele ruis en diverse ruimtelijke relaties uit de echte wereld die VLM's tegenkomen, niet werden weergegeven. Om dit aan te pakken, introduceren we SpatiaLab, een uitgebreide benchmark voor het evalueren van het ruimtelijk redeneervermogen van VLM's in realistische, onbeperkte contexten. SpatiaLab omvat 1.400 visuele vraag-antwoordparen verdeeld over zes hoofdcategorieën: Relatieve Positionering, Diepte & Occlusie, Oriëntatie, Grootte & Schaal, Ruimtelijke Navigatie en 3D-meetkunde, elk met vijf subcategorieën, wat resulteert in 30 verschillende taaktypen. Elke subcategorie bevat minimaal 25 vragen en elke hoofdcategorie omvat minimaal 200 vragen, waardoor zowel meerkeuze- als open-einde-evaluatie mogelijk is. Experimenten met diverse state-of-the-art VLM's, waaronder open-source en closed-source modellen, modellen gericht op redeneren, en gespecialiseerde modellen voor ruimtelijk redeneren, onthullen een aanzienlijke kloof in ruimtelijke redeneervaardigheden vergeleken met mensen. In de meerkeuze-opzet behaalt InternVL3.5-72B een nauwkeurigheid van 54,93% tegenover 87,57% voor mensen. In de open-einde-instelling laten alle modellen een prestatieverlies zien van ongeveer 10-25%, waarbij GPT-5-mini het hoogst scoort met 40,93% tegenover 64,93% voor mensen. Deze resultaten benadrukken cruciale beperkingen in het omgaan met complexe ruimtelijke relaties, dieptewaarneming, navigatie en 3D-meetkunde. Door een divers, op de echte wereld gebaseerd evaluatieraamwerk te bieden, legt SpatiaLab kritieke uitdagingen en kansen bloot voor de verbetering van het ruimtelijk redeneervermogen van VLM's, en biedt het een benchmark om toekomstig onderzoek te leiden naar robuust, op mensen afgestemd ruimtelijk begrip. SpatiaLab is beschikbaar op: https://spatialab-reasoning.github.io/.
English
Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.
PDF91February 6, 2026