Theorie van Ruimte: Kunnen Foundation Modellen Ruimtelijke Overtuigingen Opbouwen door Actieve Verkenning?

Samenvatting

Ruimtelijk belichaamde intelligentie vereist dat agenten handelen om informatie te verwerven onder gedeeltelijke waarneembaarheid. Hoewel multimodale foundation-modellen uitblinken in passieve waarneming, blijft hun vermogen voor actieve, zelfgestuurde verkenning onderbelicht. Wij stellen de Theory of Space voor, gedefinieerd als het vermogen van een agent om actief informatie te verwerven door zelfgestuurde, actieve exploratie en om een ruimtelijk beeld (spatial belief) te construeren, te reviseren en te benutten vanuit sequentiële, partiële observaties. Wij evalueren dit met een benchmark waarbij het doel is nieuwsgierigheid-gedreven exploratie om een accurate cognitieve kaart op te bouwen. Een belangrijke innovatie is spatial belief probing, waarbij modellen worden aangezet om hun interne ruimtelijke representaties bij elke stap te onthullen. Onze evaluatie van state-of-the-art modellen onthult verschillende kritieke knelpunten. Ten eerste identificeren we een Actief-Passief Kloof, waarbij de prestaties significant dalen wanneer agenten autonoom informatie moeten verzamelen. Ten tweede constateren we een hoge inefficiëntie, omdat modellen onsystematisch verkennen vergeleken met programma-gebaseerde proxies. Via belief probing diagnosticeren we dat hoewel perceptie een eerste knelpunt is, globale beelden lijden onder instabiliteit die ervoor zorgt dat ruimtelijke kennis in de loop van de tijd degradeert. Ten slotte onthullen we, met behulp van een false belief-paradigma, Belief Inertia, waarbij agenten er niet in slagen verouderde prior kennis bij te werken met nieuw bewijs. Dit probleem is aanwezig in tekstgebaseerde agenten, maar is bijzonder ernstig in visiegebaseerde modellen. Onze bevindingen suggereren dat huidige foundation-modellen moeite hebben om coherente, revisiebare ruimtelijke beelden te handhaven tijdens actieve exploratie.

English

Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.

Theorie van Ruimte: Kunnen Foundation Modellen Ruimtelijke Overtuigingen Opbouwen door Actieve Verkenning?

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Samenvatting

Support