ChatPaper.aiChatPaper

De l'espace aux actions : ancrage du modèle vision-langage-action dans des a priori spatiaux fondamentaux

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

October 20, 2025
papers.authors: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI

papers.abstract

Les modèles vision-langage-action (VLA) existants agissent dans le monde réel en 3D mais sont généralement construits sur des encodeurs 2D, créant un déficit de raisonnement spatial qui limite leur généralisation et adaptabilité. Les techniques récentes d'intégration 3D pour les VLA nécessitent soit des capteurs spécialisés et transfèrent mal entre les modalités, soit injectent des indices faibles dépourvus de géométrie qui dégradent l'alignement vision-langage. Dans ce travail, nous présentons FALCON (From Spatial to Action), un nouveau paradigme qui injecte des tokens spatiaux 3D riches dans la tête d'action. FALCON exploite des modèles de fondation spatiaux pour fournir des préjugés géométriques solides à partir du seul RVB, et inclut un Modèle Spatial Embarqué qui peut optionnellement fusionner la profondeur ou la pose pour une fidélité accrue lorsqu'elles sont disponibles, sans réentraînement ni modifications architecturales. Pour préserver le raisonnement langagier, les tokens spatiaux sont consommés par une Tête d'Action à Renforcement Spatial plutôt que d'être concaténés dans le backbone vision-langage. Ces conceptions permettent à FALCON de résoudre les limitations en matière de représentation spatiale, de transférabilité des modalités et d'alignement. Dans des évaluations exhaustives sur trois benchmarks de simulation et onze tâches du monde réel, notre méthode FALCON atteint des performances à l'état de l'art, surpasse systématiquement les bases de référence compétitives et demeure robuste face à l'encombrement, au conditionnement par prompt spatial, et aux variations d'échelle et de hauteur des objets.
English
Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we introduce FALCON (From Spatial to Action), a novel paradigm that injects rich 3D spatial tokens into the action head. FALCON leverages spatial foundation models to deliver strong geometric priors from RGB alone, and includes an Embodied Spatial Model that can optionally fuse depth, or pose for higher fidelity when available, without retraining or architectural changes. To preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced Action Head rather than being concatenated into the vision-language backbone. These designs enable FALCON to address limitations in spatial representation, modality transferability, and alignment. In comprehensive evaluations across three simulation benchmarks and eleven real-world tasks, our proposed FALCON achieves state-of-the-art performance, consistently surpasses competitive baselines, and remains robust under clutter, spatial-prompt conditioning, and variations in object scale and height.
PDF261December 1, 2025