AlloSpatial : Cadre d'exploitation agentique pour le raisonnement spatial dans les modèles de fondation

Résumé

Les Modèles Fondamentaux Multimodaux (MFMs) ont réalisé des progrès considérables, mais restent fragiles en matière de raisonnement spatial sur le monde physique. Un goulet d'étranglement clé réside dans leur incapacité à transformer les observations égocentriques locales en une représentation spatiale allocentrique globale. Pour y remédier, nous proposons AlloSpatial, un cadre agentique pour la cognition spatiale allocentrique dans les modèles fondamentaux. AlloSpatial introduit World2Mind, un bac à sable de cartographie cognitive prêt à l'emploi qui convertit les observations égocentriques en priors allocentriques structurés, incluant des Arbres Spatiaux Allocentriques (AST) et des cartes d'itinéraire prenant en charge l'interrogation de la topologie des objets, des relations géométriques, de la passabilité et des trajectoires. Pour exploiter ces priors de manière fiable malgré les reconstructions bruitées et les preuves visuelles ambiguës, AlloSpatial introduit un Harnais de Raisonnement Spatial pour le jugement d'utilisation d'outils, la collecte d'indices découplés par modalité et l'arbitrage géométrico-sémantique. Nous internalisons en outre ce processus dans Qwen3-VL grâce à un apprentissage par renforcement à démarrage à froid avec une récompense au niveau de la trajectoire contrôlée par le harnais. Les expériences sur VSI-Bench et MindCube montrent qu'AlloSpatial améliore les modèles propriétaires de 5 % à 18 % dans un cadre sans entraînement, tandis que les AST seuls soutiennent un raisonnement spatial robuste même lorsque les entrées visuelles sont supprimées. Les agents AlloSpatial entraînés surpassent en outre les grands modèles à usage général et les bases de référence spatiales compétitives, suggérant que les représentations allocentriques structurées, l'utilisation active d'outils et le raisonnement vérifiable offrent une voie prometteuse vers des modèles fondamentaux spatialement capables.

English

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.