ChatPaper.aiChatPaper

SwiftVLA: Het Ontgrendelen van Spatiotemporele Dynamiek voor Lichtgewicht VLA-Modellen met Minimale Overhead

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

November 30, 2025
Auteurs: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei
cs.AI

Samenvatting

Vision-Language-Action (VLA)-modellen, gebouwd op vooraf getrainde Vision-Language Models (VLM's), tonen een groot potentieel, maar hun praktische inzetbaarheid wordt beperkt door het grote aantal parameters. Om dit probleem te verlichten, is het gebruik van een lichtgewicht VLM onderzocht, maar dit gaat ten koste van spatiotemporeel redeneervermogen. Hoewel sommige methoden suggereren dat het incorporeren van aanvullende 3D-input kan helpen, zijn deze meestal afhankelijk van grote VLM's om 3D- en 2D-input te fuseren en ontbreekt het hen nog steeds aan temporeel begrip. Daarom stellen wij SwiftVLA voor, een architectuur die een compact model versterkt met 4D-begrip, terwijl de ontwerp efficiëntie behouden blijft. Concreet kenmerkt onze aanpak zich door een vooraf getrainde 4D-visuele geometrie-transformer met een tijdelijke cache die 4D-features uit 2D-beelden extraheert. Vervolgens introduceren we, om het vermogen van de VLM om zowel 2D-beelden als 4D-features te benutten te verbeteren, Fusion Tokens: een set leerbare tokens die getraind zijn met een toekomstvoorspellingsdoel om verenigde representaties voor actiegeneratie te produceren. Ten slotte introduceren we een masker-en-reconstrueer strategie die 4D-input naar de VLM maskeert en de VLA traint om deze te reconstrueren. Hierdoor kan de VLM effectieve 4D-representaties leren en kan de 4D-tak tijdens de inferentie worden weggelaten met minimaal prestatieverlies. Experimenten in reële en gesimuleerde omgevingen tonen aan dat SwiftVLA lichtgewicht baseline-modellen overtreft en kan concurreren met VLA's die tot 7 keer groter zijn. Het bereikt vergelijkbare prestaties op edge-apparaten, terwijl het 18 keer sneller is en de geheugenvoetafdruk met 12 keer vermindert.
English
Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.
PDF31December 4, 2025