SwiftVLA:最小限のオーバーヘッドで軽量VLAモデルの時空間ダイナミクスを解放する
SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
November 30, 2025
著者: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei
cs.AI
要旨
事前学習済み視覚言語モデル(VLM)を基盤とする Vision-Language-Action(VLA)モデルは強力な可能性を示すが、パラメータ数が膨大であるため実用性に課題がある。この問題を緩和するため、軽量なVLMの使用が検討されているが、それは時空間推論能力を犠牲にする。追加の3D入力を組み込む手法が提案されているものの、それらは通常、大規模VLMに依存して3Dと2D入力を融合させるため、時間的な理解が依然として不足している。そこで我々は、設計効率を維持しつつ4D理解能力をコンパクトなモデルに付与するアーキテクチャ、SwiftVLAを提案する。具体的には、2D画像から4D特徴を抽出する、時間キャッシュを備えた事前学習済み4D視覚幾何学トランスフォーマーを特徴とする。次に、VLMが2D画像と4D特徴の両方を活用する能力を強化するため、将来予測を目的として学習可能なトークンの集合であるFusion Tokensを導入し、行動生成のための統合された表現を生成する。最後に、VLMへの4D入力をマスキングし、VLAにそれらを再構築させる学習戦略(mask-and-reconstruct)を導入する。これにより、VLMは効果的な4D表現を学習でき、推論時には4D分岐を除去しても性能劣化を最小限に抑えられる。実環境およびシミュレーション環境での実験により、SwiftVLAは軽量ベースラインを上回り、最大7倍大規模なVLAモデルと同等の性能を発揮し、エッジデバイスでは18倍の高速化と12倍のメモリフットプリント削減を実現しつつ、同等の性能を達成することを示した。
English
Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.