ChatPaper.aiChatPaper

SpatiaLab: ビジョン言語モデルは実環境での空間推論が可能か?

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

February 3, 2026
著者: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez
cs.AI

要旨

空間推論は人間の認知の基本要素であるが、現代の視覚言語モデル(VLM)にとって依然として大きな課題である。従来の研究は、タスク設計やパズル的な設定が限られた合成環境やLLM生成環境に依存することが多く、VLMが直面する現実世界の複雑さ、視覚的ノイズ、多様な空間関係を捉えられていない。この問題に対処するため、現実的で制約のない文脈におけるVLMの空間推論を評価する包括的ベンチマーク「SpatiaLab」を提案する。SpatiaLabは、相対位置、深度とオクルージョン、方向、サイズとスケール、空間ナビゲーション、3D幾何学の6大カテゴリから構成され、各カテゴリは5つのサブカテゴリに細分化され、合計30の異なるタスクタイプを網羅する。1,400組の視覚質問応答ペアを含み、各サブカテゴリには少なくとも25問、各主カテゴリには少なくとも200問の質問が用意され、多肢選択式と自由記述式の両方の評価をサポートする。オープンソースおよびクローズドソースモデル、推論特化型モデル、空間推論専門モデルなど、多様な最先端VLMでの実験結果は、人間と比較して空間推論能力に大きな隔たりがあることを示している。多肢選択式設定では、InternVL3.5-72Bが54.93%の精度を達成したのに対し、人間は87.57%であった。自由記述式設定では、すべてのモデルで10-25%程度の性能低下が見られ、GPT-5-miniが40.93%で最高スコアを記録した(人間は64.93%)。これらの結果は、複雑な空間関係、深度知覚、ナビゲーション、3D幾何学の処理における重要な限界を浮き彫りにしている。多様な現実世界の評価フレームワークを提供するSpatiaLabは、VLMの空間推論の発展に向けた重要な課題と機会を明らかにし、堅牢で人間に沿った空間理解を目指す将来の研究を導くベンチマークを提供する。SpatiaLabはhttps://spatialab-reasoning.github.io/で公開されている。
English
Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.
PDF91February 6, 2026