Teoria dello Spazio: I Modelli Fondazionali Possono Costruire Credenze Spaziali Attraverso l'Esplorazione Attiva?

Abstract

L'intelligenza spaziale incarnata richiede che gli agenti agiscano per acquisire informazioni in condizioni di osservabilità parziale. Sebbene i modelli fondazionali multimodali eccellano nella percezione passiva, la loro capacità di esplorazione attiva e autodiretta rimane poco studiata. Proponiamo la Teoria dello Spazio, definita come l'abilità di un agente di acquisire attivamente informazioni attraverso un'esplorazione autodiretta e attiva, e di costruire, revisionare e sfruttare una credenza spaziale a partire da osservazioni sequenziali e parziali. Valutiamo ciò attraverso un benchmark in cui l'obiettivo è un'esplorazione guidata dalla curiosità per costruire una mappa cognitiva accurata. Un'innovazione chiave è il probing delle credenze spaziali, che sollecita i modelli a rivelare le loro rappresentazioni spaziali interne a ogni passo. La nostra valutazione dei modelli allo stato dell'arte riviede diversi colli di bottiglia critici. In primo luogo, identifichiamo un Divario Attivo-Passivo, in cui le prestazioni calano significativamente quando gli agenti devono raccogliere informazioni in autonomia. In secondo luogo, riscontriamo un'alta inefficienza, poiché i modelli esplorano in modo non sistematico rispetto a proxy basati su programmi. Attraverso il probing delle credenze, diagnosticiamo che, sebbene la percezione sia un collo di bottiglia iniziale, le credenze globali soffrono di un'instabilità che causa un degrado della conoscenza spaziale nel tempo. Infine, utilizzando un paradigma di falsa credenza, scopriamo un'Inerzia delle Credenze, per cui gli agenti non riescono ad aggiornare precedenti obsolete con nuove evidenze. Questo problema è presente negli agenti basati su testo, ma è particolarmente grave nei modelli basati su visione. I nostri risultati suggeriscono che gli attuali modelli fondazionali faticano a mantenere credenze spaziali coerenti e revisionabili durante l'esplorazione attiva.

English

Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.

Teoria dello Spazio: I Modelli Fondazionali Possono Costruire Credenze Spaziali Attraverso l'Esplorazione Attiva?

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Abstract

Support