Del Espacial a las Acciones: Fundamentando el Modelo Visión-Lenguaje-Acción en Prioridades Fundamentales Espaciales
From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
October 20, 2025
Autores: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI
Resumen
Los modelos visión-lenguaje-acción (VLA) existentes actúan en entornos 3D del mundo real, pero generalmente se construyen sobre codificadores 2D, lo que genera una brecha de razonamiento espacial que limita su generalización y adaptabilidad. Las técnicas recientes de integración 3D para VLA requieren sensores especializados y se transfieren pobremente entre modalidades, o inyectan señales débiles que carecen de geometría y degradan la alineación visión-lenguaje. En este trabajo, presentamos FALCON (Del Espacio a la Acción), un paradigma novedoso que inyecta tokens espaciales 3D enriquecidos en el cabezal de acción. FALCON aprovecha modelos fundacionales espaciales para proporcionar fuertes *priors* geométricos únicamente a partir de RGB, e incluye un Modelo Espacial Corporizado que puede fusionar opcionalmente profundidad o pose para mayor fidelidad cuando estén disponibles, sin necesidad de reentrenamiento o cambios arquitectónicos. Para preservar el razonamiento lingüístico, los tokens espaciales son procesados por un Cabezal de Acción Mejorado Espacialmente en lugar de concatenarse en el *backbone* visión-lenguaje. Estos diseños permiten a FALCON abordar las limitaciones en representación espacial, transferibilidad de modalidad y alineación. En evaluaciones exhaustivas en tres entornos de simulación y once tareas del mundo real, nuestro FALCON propuesto logra un rendimiento de vanguardia, supera consistentemente líneas base competitivas y mantiene robustez bajo desorden, condicionamiento espacial por *prompt*, y variaciones en escala y altura de objetos.
English
Existing vision-language-action (VLA) models act in 3D real-world but are
typically built on 2D encoders, leaving a spatial reasoning gap that limits
generalization and adaptability. Recent 3D integration techniques for VLAs
either require specialized sensors and transfer poorly across modalities, or
inject weak cues that lack geometry and degrade vision-language alignment. In
this work, we introduce FALCON (From Spatial to Action), a novel paradigm that
injects rich 3D spatial tokens into the action head. FALCON leverages spatial
foundation models to deliver strong geometric priors from RGB alone, and
includes an Embodied Spatial Model that can optionally fuse depth, or pose for
higher fidelity when available, without retraining or architectural changes. To
preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced
Action Head rather than being concatenated into the vision-language backbone.
These designs enable FALCON to address limitations in spatial representation,
modality transferability, and alignment. In comprehensive evaluations across
three simulation benchmarks and eleven real-world tasks, our proposed FALCON
achieves state-of-the-art performance, consistently surpasses competitive
baselines, and remains robust under clutter, spatial-prompt conditioning, and
variations in object scale and height.