SwiftVLA: Desbloqueando Dinâmicas Espaço-Temporais para Modelos Leves de VLA com Sobrecarga Mínima
SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
November 30, 2025
Autores: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA) baseados em Modelos de Visão-Linguagem (VLM) pré-treinados mostram grande potencial, mas sua praticidade é limitada pelo grande número de parâmetros. Para mitigar este problema, a utilização de um VLM leve foi explorada, mas isso compromete o raciocínio espaço-temporal. Embora alguns métodos sugiram que a incorporação de entradas 3D adicionais possa ajudar, eles geralmente dependem de VLMs grandes para fundir entradas 3D e 2D e ainda carecem de compreensão temporal. Portanto, propomos o SwiftVLA, uma arquitetura que aprimora um modelo compacto com compreensão 4D, preservando a eficiência de projeto. Especificamente, nossa abordagem apresenta um transformador de geometria visual 4D pré-treinado com um cache temporal que extrai características 4D de imagens 2D. Em seguida, para melhorar a capacidade do VLM de explorar tanto imagens 2D quanto características 4D, introduzimos os Tokens de Fusão, um conjunto de tokens treináveis treinados com um objetivo de previsão futura para gerar representações unificadas para a geração de ações. Finalmente, introduzimos uma estratégia de mascarar-e-reconstruir que mascara as entradas 4D para o VLM e treina o VLA para reconstruí-las, permitindo que o VLM aprenda representações 4D eficazes e permitindo que o ramo 4D seja descartado durante a inferência com perda mínima de desempenho. Experimentos em ambientes reais e simulados mostram que o SwiftVLA supera os modelos de referência leves e rivaliza com VLAs até 7 vezes maiores, alcançando desempenho comparável em dispositivos de borda enquanto é 18 vezes mais rápido e reduz a pegada de memória em 12 vezes.
English
Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.