Teoría del Espacio: ¿Pueden los Modelos Fundacionales Construir Creencias Espaciales mediante Exploración Activa?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
February 4, 2026
Autores: Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
Resumen
La inteligencia espacial corporizada requiere que los agentes actúen para adquirir información bajo observabilidad parcial. Si bien los modelos fundacionales multimodales sobresalen en la percepción pasiva, su capacidad para la exploración activa y autodirigida sigue siendo poco estudiada. Proponemos la Teoría del Espacio, definida como la capacidad de un agente para adquirir información activamente mediante una exploración autodirigida y activa, y para construir, revisar y explotar una creencia espacial a partir de observaciones secuenciales y parciales. Evaluamos esto mediante un punto de referencia donde el objetivo es la exploración impulsada por la curiosidad para construir un mapa cognitivo preciso. Una innovación clave es el sondeo de creencias espaciales, que solicita a los modelos que revelen sus representaciones espaciales internas en cada paso. Nuestra evaluación de los modelos de vanguardia revela varios cuellos de botella críticos. Primero, identificamos una Brecha Activo-Pasiva, donde el rendimiento cae significativamente cuando los agentes deben recopilar información de forma autónoma. En segundo lugar, encontramos una alta ineficiencia, ya que los modelos exploran de manera no sistemática en comparación con proxies basados en programas. Mediante el sondeo de creencias, diagnosticamos que, si bien la percepción es un cuello de botella inicial, las creencias globales sufren de inestabilidad que hace que el conocimiento espacial se degrade con el tiempo. Finalmente, utilizando un paradigma de falsa creencia, descubrimos la Inercia de la Creencia, donde los agentes no logran actualizar sus previsiones obsoletas con nueva evidencia. Este problema está presente en los agentes basados en texto, pero es particularmente grave en los modelos basados en visión. Nuestros hallazgos sugieren que los modelos fundacionales actuales tienen dificultades para mantener creencias espaciales coherentes y revisables durante la exploración activa.
English
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.