제한된 시각에서의 공간적 정신 모델링
Spatial Mental Modeling from Limited Views
June 26, 2025
저자: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
초록
비전 언어 모델(VLMs)은 인간처럼 단 몇 개의 시각적 정보만으로도 전체 장면을 상상할 수 있을까? 인간은 보이지 않는 공간에 대한 내적 표현인 공간적 정신 모델을 형성하여 레이아웃, 관점, 움직임에 대해 추론한다. 우리의 새로운 MindCube 벤치마크는 3,268개의 이미지에 걸쳐 21,154개의 질문을 통해 이러한 중요한 격차를 드러내며, 기존 VLMs가 거의 무작위 수준의 성능을 보이는 것을 확인했다. MindCube를 사용하여 VLMs가 위치(인지적 매핑), 방향(관점 수용), 동역학("만약" 움직임에 대한 정신적 시뮬레이션)을 통해 얼마나 견고한 공간적 정신 모델을 구축하는지 체계적으로 평가했다. 이후 우리는 VLMs가 공간적 정신 모델을 근사화할 수 있도록 도와주는 세 가지 접근 방식을 탐구했는데, 이는 보이지 않는 중간 시각적 정보, 자연어 추론 체인, 그리고 인지적 지도를 포함한다. 가장 큰 개선은 "지도를 먼저 생성한 후 추론"이라는 시너지적 접근 방식에서 이루어졌으며, 이는 모델이 먼저 인지적 지도를 생성한 후 이를 기반으로 추론하도록 공동으로 훈련시키는 방식이다. 이러한 내적 지도를 기반으로 추론하도록 모델을 훈련시킴으로써 정확도를 37.8%에서 60.8%로(+23.0%) 향상시켰다. 여기에 강화 학습을 추가하면 성능은 70.7%로(+32.9%) 더욱 향상되었다. 우리의 핵심 통찰은 이러한 공간적 정신 모델의 구조화, 즉 내적 구조화된 공간 표현을 능동적으로 구축하고 유연한 추론 과정을 활용하는 것이 관찰 불가능한 공간에 대한 이해를 크게 개선한다는 것이다.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.