ChatPaper.aiChatPaper

Théorie de l'Espace : Les modèles de fondation peuvent-ils construire des croyances spatiales par l'exploration active ?

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

February 4, 2026
papers.authors: Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI

papers.abstract

L'intelligence spatiale incarnée exige que les agents agissent pour acquérir des informations dans un contexte d'observabilité partielle. Si les modèles de fondation multimodaux excellent dans la perception passive, leur capacité à une exploration active et autodirigée reste peu étudiée. Nous proposons la Théorie de l'Espace, définie comme la capacité d'un agent à acquérir activement des informations par une exploration autodirigée et active, et à construire, réviser et exploiter une croyance spatiale à partir d'observations séquentielles et partielles. Nous évaluons cela via un benchmark où l'objectif est une exploration motivée par la curiosité pour construire une carte cognitive précise. Une innovation clé est le sondage des croyances spatiales, qui incite les modèles à révéler leurs représentations spatiales internes à chaque étape. Notre évaluation des modèles de pointe révèle plusieurs goulets d'étranglement critiques. Premièrement, nous identifions un Écart Actif-Passif, où les performances chutent significativement lorsque les agents doivent collecter des informations de manière autonome. Deuxièmement, nous constatons une forte inefficacité, car les modèles explorent de manière non systématique par rapport à des substituts programmés. Grâce au sondage des croyances, nous diagnostiquons que si la perception est un goulet d'étranglement initial, les croyances globales souffrent d'une instabilité qui entraîne une dégradation des connaissances spatiales au fil du temps. Enfin, en utilisant un paradigme de fausse croyance, nous mettons en évidence une Inertie des Croyances, où les agents ne parviennent pas à mettre à jour des a priori obsolètes avec de nouvelles preuves. Ce problème est présent chez les agents textuels mais est particulièrement sévère dans les modèles visuels. Nos résultats suggèrent que les modèles de fondation actuels peinent à maintenir des croyances spatiales cohérentes et révisables durant une exploration active.
English
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.
PDF202February 11, 2026