VLMs는 시각적 공간 지능에서 얼마나 멀리 있는가? 벤치마크 기반 관점
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
September 23, 2025
저자: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu
cs.AI
초록
시각적 공간 추론(Visual Spatial Reasoning, VSR)은 인간의 핵심 인지 능력이자, 구현된 지능(embodied intelligence)과 자율 시스템의 발전을 위해 필수적인 요구 사항입니다. 최근 비전-언어 모델(Vision-Language Models, VLMs)의 발전에도 불구하고, 3차원 공간을 표현하고 추론하는 복잡성으로 인해 인간 수준의 VSR을 달성하는 것은 여전히 매우 어려운 과제로 남아 있습니다. 본 논문에서는 VLMs에서의 VSR에 대한 체계적인 연구를 제시하며, 입력 양식, 모델 아키텍처, 훈련 전략, 추론 메커니즘에 걸친 기존 방법론들을 검토합니다. 더 나아가, 공간 지능을 기본 인지, 공간 이해, 공간 계획이라는 세 가지 능력 수준으로 분류하고, 23가지 작업 설정에 걸친 약 20개의 오픈소스 데이터셋을 포함한 공간 지능 벤치마크인 SIBench를 구성했습니다. 최신 VLMs을 사용한 실험 결과, 모델들은 기본 인지 작업에서는 능력을 보였지만, 특히 수치 추정, 다중 시점 추론, 시간적 동역학, 공간 상상력과 같은 이해 및 계획 작업에서는 지속적으로 낮은 성능을 보이며 인지와 추론 사이에 뚜렷한 격차가 있음이 드러났습니다. 이러한 발견들은 공간 지능 달성에 남아 있는 상당한 과제를 강조하면서, 해당 분야의 미래 연구를 이끌기 위한 체계적인 로드맵과 포괄적인 벤치마크를 제공합니다. 본 연구의 관련 자료는 https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/에서 확인할 수 있습니다.
English
Visual Spatial Reasoning (VSR) is a core human cognitive ability and a
critical requirement for advancing embodied intelligence and autonomous
systems. Despite recent progress in Vision-Language Models (VLMs), achieving
human-level VSR remains highly challenging due to the complexity of
representing and reasoning over three-dimensional space. In this paper, we
present a systematic investigation of VSR in VLMs, encompassing a review of
existing methodologies across input modalities, model architectures, training
strategies, and reasoning mechanisms. Furthermore, we categorize spatial
intelligence into three levels of capability, ie, basic perception, spatial
understanding, spatial planning, and curate SIBench, a spatial intelligence
benchmark encompassing nearly 20 open-source datasets across 23 task settings.
Experiments with state-of-the-art VLMs reveal a pronounced gap between
perception and reasoning, as models show competence in basic perceptual tasks
but consistently underperform in understanding and planning tasks, particularly
in numerical estimation, multi-view reasoning, temporal dynamics, and spatial
imagination. These findings underscore the substantial challenges that remain
in achieving spatial intelligence, while providing both a systematic roadmap
and a comprehensive benchmark to drive future research in the field. The
related resources of this study are accessible at
https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.