ChatPaper.aiChatPaper

SpatiaLab: Способны ли модели "визуальный язык" выполнять пространственные рассуждения в реальных условиях?

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

February 3, 2026
Авторы: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez
cs.AI

Аннотация

Пространственное мышление является фундаментальным аспектом человеческого познания, однако оно остается серьезной проблемой для современных моделей «визуальный язык» (VLMs). Предыдущие исследования в основном опирались на синтетические или сгенерированные большими языковыми моделями среды с ограниченным дизайном задач и головоломочными сценариями, которые не способны передать реальную сложность, визуальный шум и разнообразие пространственных отношений, с которыми сталкиваются VLMs. Для решения этой проблемы мы представляем SpatiaLab — комплексный бенчмарк для оценки пространственного мышления VLMs в реалистичных, неограниченных контекстах. SpatiaLab включает 1400 визуальных вопросно-ответных пар по шести основным категориям: Относительное позиционирование, Глубина и окклюзия, Ориентация, Размер и масштаб, Пространственная навигация и 3D-геометрия, каждая из которых содержит пять подкатегорий, что в сумме дает 30 различных типов задач. Каждая подкатегория содержит не менее 25 вопросов, а каждая основная категория — не менее 200 вопросов, поддерживая оценку как в формате множественного выбора, так и в открытой форме. Эксперименты с различными современными VLMs, включая модели с открытым и закрытым исходным кодом, модели, ориентированные на логические рассуждения, и специализированные модели для пространственного мышления, выявили существенный разрыв в возможностях пространственного мышления по сравнению с человеком. В настройке с множественным выбором модель InternVL3.5-72B достигает точности 54,93% против 87,57% у человека. В открытой настройке все модели демонстрируют снижение производительности примерно на 10–25%, при этом GPT-5-mini показывает наивысший результат в 40,93% против 64,93% у человека. Эти результаты подчеркивают ключевые ограничения в обработке сложных пространственных отношений, восприятии глубины, навигации и 3D-геометрии. Предоставляя разнообразную систему оценки в условиях реального мира, SpatiaLab выявляет критические проблемы и возможности для развития пространственного мышления VLMs, предлагая бенчмарк для направления будущих исследований в сторону создания надежного, соответствующего человеческому, пространственного понимания. SpatiaLab доступен по адресу: https://spatialab-reasoning.github.io/.
English
Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.
PDF91February 6, 2026