Teoria do Espaço: Modelos de Fundação Podem Construir Crenças Espaciais por Meio de Exploração Ativa?

Resumo

A inteligência espacial incorporada exige que os agentes ajam para adquirir informações sob observabilidade parcial. Embora os modelos de fundação multimodais se destaquem na percepção passiva, sua capacidade para exploração ativa e autodirigida permanece pouco estudada. Propomos a Teoria do Espaço, definida como a capacidade de um agente de adquirir informações ativamente por meio de exploração autodirigida e ativa, e de construir, revisar e explorar uma crença espacial a partir de observações sequenciais e parciais. Avaliamos isso por meio de um benchmark cujo objetivo é a exploração guiada pela curiosidade para construir um mapa cognitivo preciso. Uma inovação fundamental é o *spatial belief probing* (sondagem da crença espacial), que solicita que os modelos revelem suas representações espaciais internas a cada etapa. Nossa avaliação dos modelos de última geração revela vários gargalos críticos. Primeiro, identificamos um *Active-Passive Gap* (Fosso Ativo-Passivo), onde o desempenho cai significativamente quando os agentes devem coletar informações de forma autônoma. Segundo, encontramos alta ineficiência, pois os modelos exploram de forma não sistemática em comparação com proxies baseados em programas. Através da sondagem da crença, diagnosticamos que, embora a percepção seja um gargalo inicial, as crenças globais sofrem de instabilidade que faz com que o conhecimento espacial se degrade ao longo do tempo. Finalmente, usando um paradigma de falsa crença, descobrimos a *Belief Inertia* (Inércia da Crença), onde os agentes falham em atualizar prévias obsoletas com novas evidências. Este problema está presente em agentes baseados em texto, mas é particularmente severo em modelos baseados em visão. Nossas descobertas sugerem que os modelos de fundação atuais têm dificuldade em manter crenças espaciais coerentes e revisáveis durante a exploração ativa.

English

Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.

Teoria do Espaço: Modelos de Fundação Podem Construir Crenças Espaciais por Meio de Exploração Ativa?

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Resumo

Support