AlloSpatial: Marco de Arnés Agéntico para Razonamiento Espacial en Modelos Fundacionales

Resumen

Los Modelos Fundacionales Multimodales (MFMs) han logrado avances sustanciales, pero siguen siendo frágiles en el razonamiento espacial sobre el mundo físico. Un cuello de botella clave reside en su incapacidad para transformar observaciones egocéntricas locales en una representación espacial alocéntrica global. Para abordar esto, proponemos AlloSpatial, un marco agéntico para la cognición espacial alocéntrica en modelos fundacionales. AlloSpatial introduce World2Mind, un entorno de mapeo cognitivo plug-and-play que convierte observaciones egocéntricas en prioridades alocéntricas estructuradas, incluyendo Árboles Espaciales Alocéntricos y mapas de ruta que permiten consultar topología de objetos, relaciones geométricas, transitabilidad y trayectorias. Para utilizar estas prioridades de manera confiable bajo reconstrucción ruidosa y evidencia visual ambigua, AlloSpatial introduce un Arnés de Razonamiento Espacial para el juicio de uso de herramientas, la recolección de señales desacopladas de modalidad y el arbitraje geométrico-semántico. Además, internalizamos este proceso en Qwen3-VL mediante aprendizaje por refuerzo en frío con una recompensa a nivel de trayectoria controlada por el arnés. Los experimentos en VSI-Bench y MindCube muestran que AlloSpatial mejora los modelos propietarios en un 5%-18% en un entorno sin entrenamiento, mientras que los ASTs por sí solos respaldan un razonamiento espacial sólido incluso cuando se eliminan las entradas visuales. Los agentes AlloSpatial entrenados superan además a modelos de propósito general más grandes y a líneas base espaciales competitivas, lo que sugiere que las representaciones alocéntricas estructuradas, el uso activo de herramientas y el razonamiento verificable ofrecen una ruta prometedora hacia modelos fundacionales con capacidad espacial.

English

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.