EfficientVLA: Aceleración y Compresión sin Entrenamiento para Modelos de Visión-Lenguaje-Acción
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
June 11, 2025
Autores: Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA), particularmente las arquitecturas basadas en difusión, demuestran un potencial transformador para la inteligencia encarnada, pero se ven severamente limitados por las altas demandas computacionales y de memoria derivadas de redundancias inherentes y en tiempo de inferencia. Si bien los esfuerzos existentes de aceleración suelen abordar ineficiencias aisladas, estas soluciones fragmentadas generalmente no logran abordar de manera integral los diversos cuellos de botella computacionales y de memoria en todo el pipeline VLA, limitando así su implementación práctica. Presentamos EfficientVLA, un marco de aceleración de inferencia estructurado y libre de entrenamiento que elimina sistemáticamente estas barreras al explotar de manera cohesiva las redundancias multifacéticas. EfficientVLA integra sinérgicamente tres estrategias específicas: (1) poda de capas funcionalmente irrelevantes en el módulo de lenguaje, guiada por un análisis de redundancias entre capas; (2) optimización de la ruta de procesamiento visual mediante una estrategia consciente de la tarea que selecciona un conjunto compacto y diverso de tokens visuales, equilibrando la criticidad de la tarea con la cobertura informativa; y (3) mitigación de la redundancia computacional temporal en la cabeza de acción basada en difusión iterativa mediante el almacenamiento en caché y la reutilización estratégica de características intermedias clave. Aplicamos nuestro método al modelo VLA estándar CogACT, logrando una aceleración de inferencia de 1.93X y reduciendo los FLOPs al 28.9%, con solo una caída del 0.6% en la tasa de éxito en el benchmark SIMPLER.
English
Vision-Language-Action (VLA) models, particularly diffusion-based
architectures, demonstrate transformative potential for embodied intelligence
but are severely hampered by high computational and memory demands stemming
from extensive inherent and inference-time redundancies. While existing
acceleration efforts often target isolated inefficiencies, such piecemeal
solutions typically fail to holistically address the varied computational and
memory bottlenecks across the entire VLA pipeline, thereby limiting practical
deployability. We introduce EfficientVLA, a structured and training-free
inference acceleration framework that systematically eliminates these barriers
by cohesively exploiting multifaceted redundancies. EfficientVLA
synergistically integrates three targeted strategies: (1) pruning of
functionally inconsequential layers from the language module, guided by an
analysis of inter-layer redundancies; (2) optimizing the visual processing
pathway through a task-aware strategy that selects a compact, diverse set of
visual tokens, balancing task-criticality with informational coverage; and (3)
alleviating temporal computational redundancy within the iterative
diffusion-based action head by strategically caching and reusing key
intermediate features. We apply our method to a standard VLA model CogACT,
yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6%
success rate drop in the SIMPLER benchmark.