SwiftVLA : Déverrouiller la dynamique spatiotemporelle pour des modèles VLA légers avec une surcharge minimale

papers.abstract

Les modèles Vision-Langage-Action (VLA) construits sur des modèles de vision et langage (VLM) pré-entraînés montrent un fort potentiel mais leur utilité pratique est limitée par leur grand nombre de paramètres. Pour atténuer ce problème, l'utilisation d'un VLM léger a été explorée, mais cela se fait au détriment du raisonnement spatio-temporel. Bien que certaines méthodes suggèrent que l'incorporation d'entrées 3D supplémentaires puisse aider, elles reposent généralement sur de grands VLM pour fusionner les entrées 3D et 2D et manquent encore de compréhension temporelle. Par conséquent, nous proposons SwiftVLA, une architecture qui améliore un modèle compact avec une compréhension 4D tout en préservant l'efficacité de conception. Concrètement, notre approche intègre un transformateur de géométrie visuelle 4D pré-entraîné avec un cache temporel qui extrait des caractéristiques 4D à partir d'images 2D. Ensuite, pour améliorer la capacité du VLM à exploiter à la fois les images 2D et les caractéristiques 4D, nous introduisons les « Fusion Tokens », un ensemble de tokens entraînables formés avec un objectif de prédiction future pour générer des représentations unifiées pour la génération d'actions. Enfin, nous introduisons une stratégie de masquage et reconstruction qui masque les entrées 4D du VLM et entraîne le VLA à les reconstruire, permettant au VLM d'apprendre des représentations 4D efficaces et autorisant l'abandon du branchement 4D lors de l'inférence avec une perte de performance minime. Les expériences en environnements réels et simulés montrent que SwiftVLA surpasse les modèles de référence légers et rivalise avec des VLA jusqu'à 7 fois plus grands, atteignant des performances comparables sur les appareils embarqués tout en étant 18 fois plus rapide et en réduisant l'empreinte mémoire par un facteur 12.

English

Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.

SwiftVLA : Déverrouiller la dynamique spatiotemporelle pour des modèles VLA légers avec une surcharge minimale

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

papers.abstract

Support