Теория пространства: Могут ли базовые модели формировать пространственные представления через активное исследование?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
February 4, 2026
Авторы: Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
Аннотация
Пространственный телесный интеллект требует от агентов способности действовать для получения информации в условиях частичной наблюдаемости. Хотя мультимодальные базовые модели превосходно справляются с пассивным восприятием, их способность к активному, самонаправленному исследованию остается малоизученной. Мы предлагаем концепцию Теории Пространства, определяемую как способность агента активно приобретать информацию посредством самонаправленного активного исследования, а также конструировать, пересматривать и использовать пространственное представление на основе последовательных частичных наблюдений. Мы оцениваем это с помощью бенчмарка, где целью является любопытство-движимое исследование для построения точной когнитивной карты. Ключевым нововведением является зондирование пространственного представления, которое побуждает модели раскрывать свои внутренние пространственные репрезентации на каждом шаге.
Наша оценка современных моделей выявляет несколько критических узких мест. Во-первых, мы идентифицируем Активно-Пассивный Разрыв, когда производительность значительно падает, если агенты должны самостоятельно собирать информацию. Во-вторых, мы обнаруживаем высокую неэффективность, поскольку модели исследуют пространство бессистемно по сравнению с программными прокси-агентами. С помощью зондирования представлений мы диагностируем, что хотя восприятие является первоначальным узким местом, глобальные представления страдают от нестабильности, которая приводит к деградации пространственных знаний с течением времени. Наконец, используя парадигму ложного убеждения, мы выявляем Инерцию Представлений, когда агенты не обновляют устаревшие априорные знания новыми доказательствами. Эта проблема присутствует у текстовых агентов, но особенно выражена у моделей, основанных на зрении. Наши результаты позволяют предположить, что современные базовые модели испытывают трудности с поддержанием последовательных, пересматриваемых пространственных представлений в процессе активного исследования.
English
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.