ChatPaper.aiChatPaper

Van ruimtelijk naar acties: het verankeren van het visie-taal-actie-model in ruimtelijke fundamentele voorkennis

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

October 20, 2025
Auteurs: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI

Samenvatting

Bestaande vision-language-action (VLA) modellen opereren in de 3D-wereld, maar zijn doorgaans gebouwd op 2D-encoders, wat een kloof in ruimtelijk redeneren achterlaat die de generalisatie en aanpasbaarheid beperkt. Recente 3D-integratietechnieken voor VLA's vereisen ofwel gespecialiseerde sensoren en presteren slecht bij overdracht tussen modaliteiten, ofwel injecteren ze zwakke signalen die geometrie missen en de vision-language-afstemming verslechteren. In dit werk introduceren we FALCON (From Spatial to Action), een nieuw paradigma dat rijke 3D-ruimtelijke tokens injecteert in de actiekop. FALCON benut ruimtelijke foundation-modellen om sterke geometrische priors uitsluitend uit RGB te halen, en omvat een Embodied Spatial Model dat optioneel diepte of pose kan fusioneren voor hogere nauwkeurigheid indien beschikbaar, zonder hertraining of architectuurwijzigingen. Om de taalredenering te behouden, worden de ruimtelijke tokens verwerkt door een Spatial-Enhanced Action Head in plaats van te worden samengevoegd in de vision-language-backbone. Deze ontwerpen stellen FALCON in staat om beperkingen in ruimtelijke representatie, modaliteitsoverdraagbaarheid en afstemming aan te pakken. In uitgebreide evaluaties over drie simulatiebenchmarks en elf real-world taken behaalt onze voorgestelde FALCON state-of-the-art prestaties, overtreft consequent competitieve basislijnen en blijft robuust onder rommel, conditionering met ruimtelijke prompts, en variaties in objectschaal en hoogte.
English
Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we introduce FALCON (From Spatial to Action), a novel paradigm that injects rich 3D spatial tokens into the action head. FALCON leverages spatial foundation models to deliver strong geometric priors from RGB alone, and includes an Embodied Spatial Model that can optionally fuse depth, or pose for higher fidelity when available, without retraining or architectural changes. To preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced Action Head rather than being concatenated into the vision-language backbone. These designs enable FALCON to address limitations in spatial representation, modality transferability, and alignment. In comprehensive evaluations across three simulation benchmarks and eleven real-world tasks, our proposed FALCON achieves state-of-the-art performance, consistently surpasses competitive baselines, and remains robust under clutter, spatial-prompt conditioning, and variations in object scale and height.
PDF261December 1, 2025