ChatPaper.aiChatPaper

스페이셜랩: 비전-언어 모델은 실제 환경에서 공간 추론을 수행할 수 있는가?

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

February 3, 2026
저자: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez
cs.AI

초록

공간 추론은 인간 인지의 기본적인 측면이지만, 현대 시각-언어 모델(VLM)에게는 여전히 주요 과제로 남아 있습니다. 기존 연구는 주로 합성 또는 LLM 생성 환경에 의존하여 제한된 작업 설계와 퍼즐 형태의 구성을 보였으며, VLM이 마주하는 현실 세계의 복잡성, 시각적 노이즈, 다양한 공간 관계를 제대로 포착하지 못했습니다. 이를 해결하기 위해 우리는 현실적이고 제약이 없는 맥락에서 VLM의 공간 추론 능력을 평가하는 포괄적인 벤치마크인 SpatiaLab을 소개합니다. SpatiaLab은 상대적 위치 지정, 깊이 & 폐색, 방향, 크기 & 규모, 공간 탐색, 3D 기하학이라는 6가지 주요 범주에 걸쳐 1,400개의 시각 질문-답변 쌍으로 구성되어 있으며, 각 주요 범주는 5개의 하위 범주를 가져 총 30개의 distinct한 작업 유형을 제공합니다. 각 하위 범주에는 최소 25개의 질문이, 각 주요 범주에는 최소 200개의 질문이 포함되어 객관식 및 주관식 평가를 모두 지원합니다. 오픈소스 및 클로즈드소스 모델, 추론 중심 모델, 특화된 공간 추론 모델을 포함한 다양한 최첨단 VLM에 대한 실험 결과, 인간에 비해 공간 추론 능력에서 상당한 격차가 있음이 드러났습니다. 객관식 설정에서 InternVL3.5-72B는 54.93%의 정확도를 기록한 반면 인간은 87.57%의 정확도를 보였습니다. 주관식 설정에서는 모든 모델의 성능이 약 10-25% 하락했으며, GPT-5-mini가 40.93%로 가장 높은 점수를 기록했지만 이는 인간의 64.93%에 미치지 못했습니다. 이러한 결과는 복잡한 공간 관계, 깊이 지각, 탐색, 3D 기하학 처리에 있어 핵심적인 한계를 부각시킵니다. 다양하고 현실적인 평가 프레임워크를 제공함으로써 SpatiaLab은 VLM의 공간 추론 능력 향상을 위한 중요한 과제와 기회를 드러내며, 강력하고 인간 수준의 공간 이해를 지향하는 미래 연구를 안내하는 벤치마크를 제시합니다. SpatiaLab은 https://spatialab-reasoning.github.io/에서 이용 가능합니다.
English
Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.
PDF91February 6, 2026