EfficientVLA: Бесплатное ускорение и сжатие для моделей "Видение-Язык-Действие" без необходимости обучения
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
June 11, 2025
Авторы: Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang
cs.AI
Аннотация
Модели Vision-Language-Action (VLA), особенно архитектуры на основе диффузии, демонстрируют преобразующий потенциал для воплощённого интеллекта, но серьёзно ограничиваются высокими вычислительными и ресурсными затратами, вызванными обширными внутренними и инфраструктурными избыточностями. Хотя существующие усилия по ускорению часто направлены на устранение отдельных неэффективностей, такие частичные решения обычно не способны комплексно решить разнообразные вычислительные и ресурсные узкие места во всей цепочке VLA, что ограничивает практическую применимость. Мы представляем EfficientVLA — структурированную и не требующую обучения инфраструктуру для ускорения вывода, которая систематически устраняет эти барьеры за счёт согласованного использования многоаспектных избыточностей. EfficientVLA синергетически интегрирует три целевые стратегии: (1) обрезку функционально незначимых слоёв языкового модуля на основе анализа избыточностей между слоями; (2) оптимизацию визуального пути обработки с помощью стратегии, учитывающей задачи, которая выбирает компактный и разнообразный набор визуальных токенов, балансируя критичность задачи с охватом информации; и (3) снижение временной вычислительной избыточности в итеративной голове действий на основе диффузии за счёт стратегического кэширования и повторного использования ключевых промежуточных признаков. Мы применяем наш метод к стандартной модели VLA CogACT, достигая ускорения вывода в 1,93 раза и сокращения FLOPs до 28,9% при снижении успешности всего на 0,6% в тесте SIMPLER.
English
Vision-Language-Action (VLA) models, particularly diffusion-based
architectures, demonstrate transformative potential for embodied intelligence
but are severely hampered by high computational and memory demands stemming
from extensive inherent and inference-time redundancies. While existing
acceleration efforts often target isolated inefficiencies, such piecemeal
solutions typically fail to holistically address the varied computational and
memory bottlenecks across the entire VLA pipeline, thereby limiting practical
deployability. We introduce EfficientVLA, a structured and training-free
inference acceleration framework that systematically eliminates these barriers
by cohesively exploiting multifaceted redundancies. EfficientVLA
synergistically integrates three targeted strategies: (1) pruning of
functionally inconsequential layers from the language module, guided by an
analysis of inter-layer redundancies; (2) optimizing the visual processing
pathway through a task-aware strategy that selects a compact, diverse set of
visual tokens, balancing task-criticality with informational coverage; and (3)
alleviating temporal computational redundancy within the iterative
diffusion-based action head by strategically caching and reusing key
intermediate features. We apply our method to a standard VLA model CogACT,
yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6%
success rate drop in the SIMPLER benchmark.