EfficientVLA: Accelerazione e Compressione Senza Addestramento per Modelli Visione-Linguaggio-Azione
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
June 11, 2025
Autori: Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang
cs.AI
Abstract
I modelli Vision-Language-Action (VLA), in particolare le architetture basate su diffusione, dimostrano un potenziale trasformativo per l'intelligenza incarnata, ma sono fortemente limitati dagli elevati requisiti computazionali e di memoria derivanti da estese ridondanze intrinseche e durante l'inferenza. Mentre gli sforzi esistenti di accelerazione spesso si concentrano su inefficienze isolate, tali soluzioni frammentarie generalmente non affrontano in modo olistico i vari colli di bottiglia computazionali e di memoria lungo l'intera pipeline VLA, limitando così la praticità di implementazione. Introduciamo EfficientVLA, un framework strutturato e privo di addestramento per l'accelerazione dell'inferenza che elimina sistematicamente queste barriere sfruttando in modo coerente le ridondanze multifaccettate. EfficientVLA integra sinergicamente tre strategie mirate: (1) la potatura di strati funzionalmente irrilevanti dal modulo linguistico, guidata da un'analisi delle ridondanze inter-strato; (2) l'ottimizzazione del percorso di elaborazione visiva attraverso una strategia consapevole del compito che seleziona un insieme compatto e diversificato di token visivi, bilanciando la criticità del compito con la copertura informativa; e (3) l'attenuazione della ridondanza computazionale temporale all'interno della testa d'azione basata su diffusione iterativa mediante la memorizzazione strategica e il riutilizzo di caratteristiche intermedie chiave. Applichiamo il nostro metodo a un modello VLA standard, CogACT, ottenendo un'accelerazione dell'inferenza di 1,93X e una riduzione dei FLOP al 28,9%, con un calo del tasso di successo di solo lo 0,6% nel benchmark SIMPLER.
English
Vision-Language-Action (VLA) models, particularly diffusion-based
architectures, demonstrate transformative potential for embodied intelligence
but are severely hampered by high computational and memory demands stemming
from extensive inherent and inference-time redundancies. While existing
acceleration efforts often target isolated inefficiencies, such piecemeal
solutions typically fail to holistically address the varied computational and
memory bottlenecks across the entire VLA pipeline, thereby limiting practical
deployability. We introduce EfficientVLA, a structured and training-free
inference acceleration framework that systematically eliminates these barriers
by cohesively exploiting multifaceted redundancies. EfficientVLA
synergistically integrates three targeted strategies: (1) pruning of
functionally inconsequential layers from the language module, guided by an
analysis of inter-layer redundancies; (2) optimizing the visual processing
pathway through a task-aware strategy that selects a compact, diverse set of
visual tokens, balancing task-criticality with informational coverage; and (3)
alleviating temporal computational redundancy within the iterative
diffusion-based action head by strategically caching and reusing key
intermediate features. We apply our method to a standard VLA model CogACT,
yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6%
success rate drop in the SIMPLER benchmark.