空間から行動へ:視覚言語行動モデルを空間的基盤事前知識に接地する
From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
October 20, 2025
著者: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI
要旨
既存の視覚言語行動(VLA)モデルは3D実世界で動作するが、通常2Dエンコーダに基づいて構築されているため、空間推論のギャップが生じ、汎化性と適応性が制限されている。最近のVLA向け3D統合技術は、特殊なセンサーを必要としモダリティ間での転移が困難であるか、幾何学的情報を欠き視覚言語アライメントを劣化させる弱い手がかりを注入するものに留まっている。本研究では、行動ヘッドに豊富な3D空間トークンを注入する新規パラダイムFALCON(From Spatial to Action)を提案する。FALCONは空間基盤モデルを活用し、RGBのみから強力な幾何学的事前分布を提供し、深度や姿勢を利用可能な場合に再学習やアーキテクチャ変更なしで高精度に融合可能な具現化空間モデルを含む。言語推論を維持するため、空間トークンは視覚言語バックボーンに連結されるのではなく、空間拡張行動ヘッドによって処理される。これらの設計により、FALCONは空間表現、モダリティ転移性、アライメントの課題に対処可能である。3つのシミュレーションベンチマークと11の実世界タスクにわたる総合的な評価において、提案するFALCONは最先端の性能を達成し、競合ベースラインを一貫して上回り、雑音環境、空間プロンプト条件付け、物体の規模や高さの変動下でも堅牢性を維持した。
English
Existing vision-language-action (VLA) models act in 3D real-world but are
typically built on 2D encoders, leaving a spatial reasoning gap that limits
generalization and adaptability. Recent 3D integration techniques for VLAs
either require specialized sensors and transfer poorly across modalities, or
inject weak cues that lack geometry and degrade vision-language alignment. In
this work, we introduce FALCON (From Spatial to Action), a novel paradigm that
injects rich 3D spatial tokens into the action head. FALCON leverages spatial
foundation models to deliver strong geometric priors from RGB alone, and
includes an Embodied Spatial Model that can optionally fuse depth, or pose for
higher fidelity when available, without retraining or architectural changes. To
preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced
Action Head rather than being concatenated into the vision-language backbone.
These designs enable FALCON to address limitations in spatial representation,
modality transferability, and alignment. In comprehensive evaluations across
three simulation benchmarks and eleven real-world tasks, our proposed FALCON
achieves state-of-the-art performance, consistently surpasses competitive
baselines, and remains robust under clutter, spatial-prompt conditioning, and
variations in object scale and height.