SwiftVLA: Räumlich-zeitliche Dynamik für schlanke VLA-Modelle mit minimalem Aufwand erschließen

Zusammenfassung

Vision-Language-Action (VLA)-Modelle, die auf vortrainierten Vision-Language Models (VLMs) aufbauen, zeigen großes Potenzial, sind jedoch aufgrund ihrer hohen Parameteranzahl in der Praxis eingeschränkt. Um dieses Problem zu mildern, wurde der Einsatz leichtgewichtiger VLMs untersucht, was jedoch die räumlich-zeitliche Reasoning-Fähigkeit beeinträchtigt. Obwohl einige Methoden vorschlagen, dass zusätzliche 3D-Eingaben helfen können, verlassen diese sich meist auf große VLMs zur Fusion von 3D- und 2D-Eingaben und weisen weiterhin kein temporales Verständnis auf. Daher schlagen wir SwiftVLA vor, eine Architektur, die ein kompaktes Modell um 4D-Verständnis erweitert und dabei die Effizienz der Modellgestaltung beibehält. Konkret zeichnet sich unser Ansatz durch einen vortrainierten 4D-Visual-Geometry-Transformer mit einem temporalen Cache aus, der 4D-Merkmale aus 2D-Bildern extrahiert. Um dann die Fähigkeit des VLM zu verbessern, sowohl 2D-Bilder als auch 4D-Merkmale zu nutzen, führen wir Fusion Tokens ein – einen Satz lernbarer Token, die mit einem Ziel der Vorhersage zukünftiger Zustände trainiert werden, um einheitliche Repräsentationen für die Aktionsgenerierung zu erzeugen. Schließlich führen wir eine Mask-and-Reconstruct-Strategie ein, bei der 4D-Eingaben für das VLM maskiert werden und das VLA trainiert wird, diese zu rekonstruieren. Dies ermöglicht es dem VLM, effektive 4D-Repräsentationen zu erlernen, und erlaubt es, den 4D-Zweig zur Inferenzzeit bei minimalem Leistungsverlust zu entfernen. Experimente in realen und simulierten Umgebungen zeigen, dass SwiftVLA leichtgewichtige Baselines übertrifft und mit VLMs konkurriert, die bis zu 7-mal größer sind. Es erreicht eine vergleichbare Leistung auf Edge-Geräten bei 18-facher Geschwindigkeit und einer 12-fachen Reduzierung des Speicherbedarfs.

English

Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.