Van ruimtelijk naar acties: het verankeren van het visie-taal-actie-model in ruimtelijke fundamentele voorkennis
From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
October 20, 2025
Auteurs: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI
Samenvatting
Bestaande vision-language-action (VLA) modellen opereren in de 3D-wereld, maar zijn doorgaans gebouwd op 2D-encoders, wat een kloof in ruimtelijk redeneren achterlaat die de generalisatie en aanpasbaarheid beperkt. Recente 3D-integratietechnieken voor VLA's vereisen ofwel gespecialiseerde sensoren en presteren slecht bij overdracht tussen modaliteiten, ofwel injecteren ze zwakke signalen die geometrie missen en de vision-language-afstemming verslechteren. In dit werk introduceren we FALCON (From Spatial to Action), een nieuw paradigma dat rijke 3D-ruimtelijke tokens injecteert in de actiekop. FALCON benut ruimtelijke foundation-modellen om sterke geometrische priors uitsluitend uit RGB te halen, en omvat een Embodied Spatial Model dat optioneel diepte of pose kan fusioneren voor hogere nauwkeurigheid indien beschikbaar, zonder hertraining of architectuurwijzigingen. Om de taalredenering te behouden, worden de ruimtelijke tokens verwerkt door een Spatial-Enhanced Action Head in plaats van te worden samengevoegd in de vision-language-backbone. Deze ontwerpen stellen FALCON in staat om beperkingen in ruimtelijke representatie, modaliteitsoverdraagbaarheid en afstemming aan te pakken. In uitgebreide evaluaties over drie simulatiebenchmarks en elf real-world taken behaalt onze voorgestelde FALCON state-of-the-art prestaties, overtreft consequent competitieve basislijnen en blijft robuust onder rommel, conditionering met ruimtelijke prompts, en variaties in objectschaal en hoogte.
English
Existing vision-language-action (VLA) models act in 3D real-world but are
typically built on 2D encoders, leaving a spatial reasoning gap that limits
generalization and adaptability. Recent 3D integration techniques for VLAs
either require specialized sensors and transfer poorly across modalities, or
inject weak cues that lack geometry and degrade vision-language alignment. In
this work, we introduce FALCON (From Spatial to Action), a novel paradigm that
injects rich 3D spatial tokens into the action head. FALCON leverages spatial
foundation models to deliver strong geometric priors from RGB alone, and
includes an Embodied Spatial Model that can optionally fuse depth, or pose for
higher fidelity when available, without retraining or architectural changes. To
preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced
Action Head rather than being concatenated into the vision-language backbone.
These designs enable FALCON to address limitations in spatial representation,
modality transferability, and alignment. In comprehensive evaluations across
three simulation benchmarks and eleven real-world tasks, our proposed FALCON
achieves state-of-the-art performance, consistently surpasses competitive
baselines, and remains robust under clutter, spatial-prompt conditioning, and
variations in object scale and height.