EfficientVLA: Trainingsfreie Beschleunigung und Kompression für Vision-Sprache-Handlungs-Modelle
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
June 11, 2025
Autoren: Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang
cs.AI
Zusammenfassung
Vision-Language-Action (VLA)-Modelle, insbesondere diffusionsbasierte Architekturen, zeigen ein transformatives Potenzial für verkörperte Intelligenz, werden jedoch durch hohe Rechen- und Speicheranforderungen erheblich behindert, die sich aus umfangreichen inhärenten und Inferenzzeit-Redundanzen ergeben. Während bestehende Beschleunigungsbemühungen oft isolierte Ineffizienzen ins Visier nehmen, scheitern solche punktuellen Lösungen typischerweise daran, die vielfältigen Rechen- und Speicher-Engpässe entlang der gesamten VLA-Pipeline ganzheitlich zu adressieren, was die praktische Einsatzfähigkeit einschränkt. Wir stellen EfficientVLA vor, ein strukturiertes und trainingsfreies Inferenz-Beschleunigungsframework, das diese Barrieren systematisch beseitigt, indem es vielschichtige Redundanzen kohärent ausnutzt. EfficientVLA integriert synergetisch drei gezielte Strategien: (1) das Beschneiden funktional unbedeutender Schichten im Sprachmodul, geleitet durch eine Analyse von Inter-Schicht-Redundanzen; (2) die Optimierung des visuellen Verarbeitungspfads durch eine aufgabenbewusste Strategie, die eine kompakte, diverse Auswahl visueller Tokens auswählt und dabei Aufgabenrelevanz mit Informationsabdeckung ausbalanciert; und (3) die Reduzierung temporärer Rechenredundanz innerhalb des iterativen, diffusionsbasierten Aktionskopfes durch strategisches Zwischenspeichern und Wiederverwenden wichtiger Zwischenmerkmale. Wir wenden unsere Methode auf das Standard-VLA-Modell CogACT an und erzielen eine 1,93-fache Beschleunigung der Inferenz sowie eine Reduzierung der FLOPs auf 28,9 %, bei lediglich einem Rückgang der Erfolgsrate von 0,6 % im SIMPLER-Benchmark.
English
Vision-Language-Action (VLA) models, particularly diffusion-based
architectures, demonstrate transformative potential for embodied intelligence
but are severely hampered by high computational and memory demands stemming
from extensive inherent and inference-time redundancies. While existing
acceleration efforts often target isolated inefficiencies, such piecemeal
solutions typically fail to holistically address the varied computational and
memory bottlenecks across the entire VLA pipeline, thereby limiting practical
deployability. We introduce EfficientVLA, a structured and training-free
inference acceleration framework that systematically eliminates these barriers
by cohesively exploiting multifaceted redundancies. EfficientVLA
synergistically integrates three targeted strategies: (1) pruning of
functionally inconsequential layers from the language module, guided by an
analysis of inter-layer redundancies; (2) optimizing the visual processing
pathway through a task-aware strategy that selects a compact, diverse set of
visual tokens, balancing task-criticality with informational coverage; and (3)
alleviating temporal computational redundancy within the iterative
diffusion-based action head by strategically caching and reusing key
intermediate features. We apply our method to a standard VLA model CogACT,
yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6%
success rate drop in the SIMPLER benchmark.