AlloSpatial: Агентный фреймворк для пространственного рассуждения в фундаментальных моделях

Аннотация

Мультимодальные фундаментальные модели (MFMs) достигли значительного прогресса, однако остаются неустойчивыми в пространственном рассуждении о физическом мире. Ключевое узкое место заключается в их неспособности преобразовывать локальные эгоцентрические наблюдения в глобальное аллоцентрическое пространственное представление. Для решения этой проблемы мы предлагаем AlloSpatial — агентную структуру для аллоцентрической пространственной когниции в фундаментальных моделях. AlloSpatial вводит World2Mind — подключаемую когнитивную картографическую песочницу, которая преобразует эгоцентрические наблюдения в структурированные аллоцентрические априоры, включая аллоцентрические пространственные деревья и карты маршрутов, поддерживающие запросы топологии объектов, геометрических отношений, проходимости и траекторий. Для надежного использования этих априоров в условиях зашумленной реконструкции и неоднозначных визуальных данных AlloSpatial вводит обвязку пространственного рассуждения для оценки использования инструментов, сбора подсказок с декомпозицией по модальностям и арбитража геометрии и семантики. Мы далее интернализируем этот процесс в Qwen3-VL с помощью обучения с подкреплением с холодного старта и вознаграждения на уровне траекторий, управляемого обвязкой. Эксперименты на VSI-Bench и MindCube показывают, что AlloSpatial улучшает проприетарные модели на 5%-18% в условиях без обучения, в то время как одни AST обеспечивают сильное пространственное рассуждение даже при удалении визуальных входных данных. Обученные агенты AlloSpatial дополнительно превосходят более крупные модели общего назначения и конкурентоспособные пространственные базовые линии, что указывает на то, что структурированные аллоцентрические представления, активное использование инструментов и верифицируемое рассуждение предлагают многообещающий путь к пространственно способным фундаментальным моделям.

English

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.