Theorie des Raums: Können Foundation-Modelle räumliche Überzeugungen durch aktive Exploration konstruieren?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
February 4, 2026
papers.authors: Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
papers.abstract
Räumliche verkörperte Intelligenz erfordert, dass Agenten unter partieller Beobachtbarkeit handeln, um Informationen zu erlangen. Während multimodale Foundation-Modelle in passiver Wahrnehmung exzellieren, ist ihre Fähigkeit zur aktiven, selbstgesteuerten Exploration noch wenig erforscht. Wir schlagen die Theorie des Raums vor, definiert als die Fähigkeit eines Agenten, durch selbstgesteuerte, aktive Exploration aktiv Informationen zu erwerben und aus sequenziellen, partiellen Beobachtungen eine räumliche Überzeugung zu konstruieren, zu revidieren und zu nutzen. Wir evaluieren dies anhand eines Benchmarks, bei dem das Ziel eine neugiergetriebene Exploration zur Erstellung einer akkuraten kognitiven Karte ist. Eine Schlüsselinnovation ist die Abfrage der räumlichen Überzeugung, bei der Modelle aufgefordert werden, ihre internen räumlichen Repräsentationen in jedem Schritt preiszugeben. Unsere Evaluation modernster Modelle zeigt mehrere kritische Engpässe auf. Erstens identifizieren wir eine Aktiv-Passiv-Lücke, bei der die Leistung signifikant abfällt, wenn Agenten Informationen autonom sammeln müssen. Zweitens stellen wir eine hohe Ineffizienz fest, da Modelle im Vergleich zu programmbasierten Stellvertretern unsystematisch explorieren. Durch die Überzeugungsabfrage diagnostizieren wir, dass Wahrnehmung zwar ein initialer Engpass ist, globale Überzeugungen jedoch unter Instabilität leiden, die räumliches Wissen über Zeit degradieren lässt. Schließlich decken wir mithilfe eines Paradigmas der falschen Überzeugung eine Überzeugungsträgheit auf, bei der Agenten veraltete Prioritäten nicht mit neuen Evidenzen aktualisieren. Dieses Problem tritt bei textbasierten Agenten auf, ist jedoch bei visuationsbasierten Modellen besonders ausgeprägt. Unsere Ergebnisse legen nahe, dass aktuelle Foundation-Modelle Schwierigkeiten haben, während aktiver Exploration kohärente, revisierbare räumliche Überzeugungen aufrechtzuerhalten.
English
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.