SwiftVLA: Desbloqueando Dinámicas Espaciotemporales para Modelos VLA Ligeros con Mínima Sobrecarga
SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
November 30, 2025
Autores: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) basados en modelos de visión y lenguaje (VLM) preentrenados muestran un gran potencial, pero su utilidad práctica se ve limitada por su gran número de parámetros. Para mitigar este problema, se ha explorado el uso de VLM ligeros, pero esto compromete el razonamiento espacio-temporal. Aunque algunos métodos sugieren que la incorporación de entradas 3D adicionales puede ayudar, estos suelen depender de VLM grandes para fusionar entradas 3D y 2D y aún carecen de comprensión temporal. Por lo tanto, proponemos SwiftVLA, una arquitectura que mejora un modelo compacto con comprensión 4D manteniendo la eficiencia de diseño. Específicamente, nuestro enfoque incorpora un transformador de geometría visual 4D preentrenado con una caché temporal que extrae características 4D a partir de imágenes 2D. Luego, para mejorar la capacidad del VLM de aprovechar tanto las imágenes 2D como las características 4D, introducimos *Fusion Tokens*, un conjunto de tokens entrenables que se instruyen con un objetivo de predicción futura para generar representaciones unificadas para la generación de acciones. Finalmente, introducimos una estrategia de enmascarar-y-reconstruir que oculta las entradas 4D al VLM y entrena al modelo VLA para reconstruirlas, permitiendo que el VLM aprenda representaciones 4D efectivas y que la rama 4D pueda eliminarse durante la inferencia con una pérdida mínima de rendimiento. Los experimentos en entornos reales y simulados muestran que SwiftVLA supera a los modelos ligeros de referencia y rivaliza con modelos VLA hasta 7 veces más grandes, logrando un rendimiento comparable en dispositivos de borde mientras es 18 veces más rápido y reduce la huella de memoria en un factor de 12.
English
Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.