공간 이론: 파운데이션 모델이 능동적 탐색을 통해 공간적 믿음을 구축할 수 있는가?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
February 4, 2026
저자: Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
초록
공간적 구현 지능은 부분적 관측 가능성 하에서 에이전트가 정보를 획득하기 위해 행동할 것을 요구한다. 다중모달 기초 모델은 수동적 인지에서 뛰어난 성능을 보이지만, 능동적이고 자기 주도적인 탐색 능력은 아직 충분히 연구되지 않았다. 우리는 '공간 이론'을 제안하는데, 이는 에이전트가 자기 주도적 능동 탐색을 통해 정보를 능동적으로 획득하고, 순차적 부분 관측으로부터 공간적 신념을 구성·수정·활용하는 능력으로 정의된다. 우리는 호기심 주도 탐색을 통해 정확한 인지 지도를 구축하는 것을 목표로 하는 벤치마크를 통해 이를 평가한다. 핵심 혁신은 공간 신념 프로빙으로, 각 단계에서 모델이 내부 공간 표현을 드러내도록 유도한다. 최첨단 모델 평가를 통해 몇 가지 중요한 병목 현상을 발견했다. 첫째, 에이전트가 자율적으로 정보를 수집해야 할 때 성능이 크게 떨어지는 능동-수동 간극을 확인했다. 둘째, 프로그램 기반 대조군에 비해 모델이 체계적이지 않은 탐색을 수행함에 따른 높은 비효율성을 발견했다. 신념 프로빙을 통해 진단한 결과, 인지가 초기 병목 현상이긴 하지만 전역 신념이 불안정하여 시간이 지남에 따라 공간 지식이 저하되는 문제가 있음을 확인했다. 마지막으로 오류 신념 패러다임을 사용하여, 에이전트가 새로운 증거로 낡은 사전 지식을 업데이트하지 못하는 '신념 관성'을 발견했다. 이 문제는 텍스트 기반 에이전트에도 존재하지만 시각 기반 모델에서 특히 심각했다. 우리의 연구 결과는 현재 기초 모델이 능동적 탐색 동안 일관되고 수정 가능한 공간 신념을 유지하는 데 어려움을 겪고 있음을 시사한다.
English
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.