EfficientVLA: Aceleração e Compressão sem Treinamento para Modelos Visão-Linguagem-Ação
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
June 11, 2025
Autores: Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang
cs.AI
Resumo
Modelos Visão-Linguagem-Ação (VLA), particularmente arquiteturas baseadas em difusão, demonstram potencial transformador para inteligência incorporada, mas são severamente limitados pelas altas demandas computacionais e de memória decorrentes de redundâncias intrínsecas e durante a inferência. Embora os esforços existentes de aceleração frequentemente visem ineficiências isoladas, tais soluções fragmentadas geralmente falham em abordar de forma holística os diversos gargalos computacionais e de memória em todo o pipeline VLA, limitando assim a viabilidade prática de implantação. Apresentamos o EfficientVLA, uma estrutura de aceleração de inferência estruturada e livre de treinamento que elimina sistematicamente essas barreiras ao explorar de forma coesa redundâncias multifacetadas. O EfficientVLA integra sinergicamente três estratégias direcionadas: (1) poda de camadas funcionalmente inconsequentes do módulo de linguagem, guiada por uma análise de redundâncias entre camadas; (2) otimização do caminho de processamento visual por meio de uma estratégia consciente da tarefa que seleciona um conjunto compacto e diversificado de tokens visuais, equilibrando criticidade da tarefa com cobertura informacional; e (3) redução da redundância computacional temporal dentro da cabeça de ação iterativa baseada em difusão, armazenando e reutilizando estrategicamente características intermediárias-chave. Aplicamos nosso método ao modelo VLA padrão CogACT, obtendo um aumento de velocidade de inferência de 1,93X e reduzindo os FLOPs para 28,9%, com apenas uma queda de 0,6% na taxa de sucesso no benchmark SIMPLER.
English
Vision-Language-Action (VLA) models, particularly diffusion-based
architectures, demonstrate transformative potential for embodied intelligence
but are severely hampered by high computational and memory demands stemming
from extensive inherent and inference-time redundancies. While existing
acceleration efforts often target isolated inefficiencies, such piecemeal
solutions typically fail to holistically address the varied computational and
memory bottlenecks across the entire VLA pipeline, thereby limiting practical
deployability. We introduce EfficientVLA, a structured and training-free
inference acceleration framework that systematically eliminates these barriers
by cohesively exploiting multifaceted redundancies. EfficientVLA
synergistically integrates three targeted strategies: (1) pruning of
functionally inconsequential layers from the language module, guided by an
analysis of inter-layer redundancies; (2) optimizing the visual processing
pathway through a task-aware strategy that selects a compact, diverse set of
visual tokens, balancing task-criticality with informational coverage; and (3)
alleviating temporal computational redundancy within the iterative
diffusion-based action head by strategically caching and reusing key
intermediate features. We apply our method to a standard VLA model CogACT,
yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6%
success rate drop in the SIMPLER benchmark.