空間理論:基盤モデルは能動的探索を通じて空間的信念を構築できるか?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
February 4, 2026
著者: Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
要旨
空間的 embodied intelligence は、部分観測下においてエージェントが情報獲得のために能動的に行動することを要求する。マルチモーダル基盤モデルは受動的知覚において優れた性能を示すが、能動的かつ自己主導的な探索能力については未解明の部分が多い。我々は「空間理論」を提案する。これは、エージェントが自己主導的な能動探索を通じて情報を能動的に獲得し、連続的かつ部分的な観測から空間的信念を構築・修正・利用する能力と定義する。これを評価するため、好奇心駆動型探索によって正確な認知地図を構築することを目的としたベンチマークを開発した。重要な革新は空間的信念 probing であり、各ステップでモデルに内部の空間的表現を明示させる。最先端モデルの評価により、いくつかの重大なボトルネックが明らかになった。第一に、エージェントが自律的に情報収集する必要がある場合に性能が大幅に低下する「能動-受動ギャップ」を特定した。第二に、モデルがプログラムベースの代理と比較して非体系的な探索を行うため、非効率性が高いことが判明した。信念 probing を通じて、知覚が初期のボトルネックである一方、大域的信念は不安定性に悩まされ、空間知識が時間とともに劣化することを診断した。最後に、誤った信念パラダイムを用いて、エージェントが新しい証拠で時代遅れの事前分布を更新できない「信念の慣性」を明らかにした。この問題はテキストベースのエージェントにも存在するが、視覚ベースのモデルでは特に深刻である。我々の発見は、現在の基盤モデルが能動的探索中に一貫性があり修正可能な空間的信念を維持するのに苦戦していることを示唆する。
English
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.