SwiftVLA: 최소 오버헤드로 경량 VLA 모델의 시공간 역학 활용
SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
November 30, 2025
저자: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei
cs.AI
초록
사전 훈련된 시각-언어 모델(VLM)을 기반으로 구축된 Vision-Language-Action(VLA) 모델은 강력한 잠재력을 보여주지만, 방대한 매개변수로 인해 실용성이 제한됩니다. 이 문제를 완화하기 위해 경량화된 VLM 사용이 탐구되었으나, 이는 시공간적 추론 능력을 저하시킵니다. 추가적인 3D 입력 정보를 통합하면 도움이 될 수 있다는 방법들이 제안되었지만, 이러한 방법들은 대체로 3D와 2D 입력을 융합하기 위해 대규모 VLM에 의존하며 여전히 시간적 이해가 부족합니다. 따라서 본 연구에서는 설계 효율성을 유지하면서 4D 이해 능력을 갖춘 경량 모델을 강화하는 SwiftVLA 아키텍처를 제안합니다. 구체적으로, 우리의 접근 방식은 2D 이미지에서 4D 특징을 추출하는 시간적 캐시를 가진 사전 훈련된 4D 시각 지오메트리 변환기(Transformer)를 특징으로 합니다. 그런 다음 VLM이 2D 이미지와 4D 특징을 모두 효과적으로 활용할 수 있도록 하기 위해, 행동 생성에 필요한 통합된 표현을 생성하도록 미래 예측 목표로 훈련된 학습 가능한 토큰 집합인 Fusion Tokens를 도입합니다. 마지막으로, VLM에 입력되는 4D 데이터를 마스킹하고 VLA가 이를 재구성하도록 훈련시키는 마스크-재구성 전략을 도입합니다. 이를 통해 VLM이 효과적인 4D 표현을 학습하게 하며, 추론 단계에서 4D 브랜치를 최소한의 성능 저하만으로 제거할 수 있게 합니다. 실제 및 시뮬레이션 환경에서의 실험 결과, SwiftVLA는 경량 베이스라인 모델들을 능가하며 크기가 최대 7배 큰 VLA 모델들과 비슷한 성능을 보였습니다. 에지 디바이스에서 유사한 성능을 달성하면서도 처리 속도는 18배 빨라지고 메모리 사용량은 12배 줄어드는 결과를 보였습니다.
English
Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.