AlloSpatial: Agentisch Inzetraamwerk voor Ruimtelijk Redeneren in Fundamentmodellen

Samenvatting

Multimodale Fundatiemodellen (MFM's) hebben aanzienlijke vooruitgang geboekt, maar blijven kwetsbaar in ruimtelijk redeneren over de fysieke wereld. Een belangrijk knelpunt is hun onvermogen om lokale egocentrische waarnemingen om te zetten in een globale allocentrische ruimtelijke representatie. Om dit aan te pakken stellen we AlloSpatial voor, een agentief raamwerk voor allocentrische ruimtelijke cognitie in fundatiemodellen. AlloSpatial introduceert World2Mind, een plug-and-play cognitieve karteringssandbox die egocentrische waarnemingen omzet in gestructureerde allocentrische voorkennis, waaronder Allocentrische-Ruimtelijke Bomen en routenetwerken die het opvragen van objecttopologie, geometrische relaties, passeerbaarheid en trajecten ondersteunen. Om deze voorkennis betrouwbaar te benutten onder ruizige reconstructie en ambigue visuele evidentie, introduceert AlloSpatial een Ruimtelijk Redeneerharnas voor oordeelsvorming over het gebruik van hulpmiddelen, modaal-ontkoppelde aanwijzingsverzameling en geometrisch-semantische arbitrage. We internaliseren dit proces verder in Qwen3-VL door middel van koude-start reinforcement learning met een door het harnas gecontroleerde trajectniveaubeloning. Experimenten op VSI-Bench en MindCube tonen aan dat AlloSpatial propriëtaire modellen met 5%-18% verbetert in een training-vrije setting, terwijl AST's alleen al sterke ruimtelijke redeneringen ondersteunen, zelfs wanneer visuele invoer wordt verwijderd. De getrainde AlloSpatial-agenten presteren verder beter dan grotere algemene modellen en competitieve ruimtelijke baselines, wat suggereert dat gestructureerde allocentrische representaties, actief gebruik van hulpmiddelen en verifieerbaar redeneren een veelbelovende route bieden naar ruimtelijk capabele fundatiemodellen.

English

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.