EfficientVLA: Trainingsvrije versnelling en compressie voor Vision-Language-Action-modellen

Samenvatting

Vision-Language-Action (VLA)-modellen, met name diffuusie-gebaseerde architecturen, tonen transformatief potentieel voor belichaamde intelligentie, maar worden ernstig belemmerd door hoge rekenkundige en geheugeneisen die voortkomen uit uitgebreide inherente en inferentie-tijd redundanties. Hoewel bestaande versnellingsinspanningen vaak gericht zijn op geïsoleerde inefficiënties, slagen dergelijke gefragmenteerde oplossingen er meestal niet in om de diverse rekenkundige en geheugenknelpunten in de gehele VLA-pijplijn holistisch aan te pakken, wat de praktische inzetbaarheid beperkt. Wij introduceren EfficientVLA, een gestructureerd en trainingsvrij inferentieversnellingsraamwerk dat deze barrières systematisch elimineert door op samenhangende wijze veelzijdige redundanties te benutten. EfficientVLA integreert synergetisch drie gerichte strategieën: (1) het snoeien van functioneel onbelangrijke lagen uit de taalmodule, geleid door een analyse van inter-layer redundanties; (2) het optimaliseren van het visuele verwerkingspad via een taakbewuste strategie die een compacte, diverse set van visuele tokens selecteert, waarbij taakkritiek wordt afgewogen tegen informatieve dekking; en (3) het verminderen van temporele rekenkundige redundantie binnen de iteratieve diffuusie-gebaseerde actiekop door strategisch sleutelintermediaire kenmerken te cachen en te hergebruiken. We passen onze methode toe op een standaard VLA-model, CogACT, wat resulteert in een 1,93X inferentieversnelling en FLOPs reduceert tot 28,9%, met slechts een daling van 0,6% in het slagingspercentage op de SIMPLER-benchmark.

English

Vision-Language-Action (VLA) models, particularly diffusion-based architectures, demonstrate transformative potential for embodied intelligence but are severely hampered by high computational and memory demands stemming from extensive inherent and inference-time redundancies. While existing acceleration efforts often target isolated inefficiencies, such piecemeal solutions typically fail to holistically address the varied computational and memory bottlenecks across the entire VLA pipeline, thereby limiting practical deployability. We introduce EfficientVLA, a structured and training-free inference acceleration framework that systematically eliminates these barriers by cohesively exploiting multifaceted redundancies. EfficientVLA synergistically integrates three targeted strategies: (1) pruning of functionally inconsequential layers from the language module, guided by an analysis of inter-layer redundancies; (2) optimizing the visual processing pathway through a task-aware strategy that selects a compact, diverse set of visual tokens, balancing task-criticality with informational coverage; and (3) alleviating temporal computational redundancy within the iterative diffusion-based action head by strategically caching and reusing key intermediate features. We apply our method to a standard VLA model CogACT, yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6% success rate drop in the SIMPLER benchmark.

EfficientVLA: Trainingsvrije versnelling en compressie voor Vision-Language-Action-modellen

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

Samenvatting

Support