ChatPaper.aiChatPaper

EfficientVLA : Accélération et compression sans entraînement pour les modèles vision-langage-action

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

June 11, 2025
Auteurs: Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang
cs.AI

Résumé

Les modèles Vision-Langage-Action (VLA), en particulier les architectures basées sur la diffusion, démontrent un potentiel transformateur pour l'intelligence incarnée, mais sont fortement limités par les exigences élevées en calcul et en mémoire résultant des redondances intrinsèques et temporelles d'inférence. Bien que les efforts d'accélération existants ciblent souvent des inefficacités isolées, ces solutions partielles échouent généralement à aborder de manière holistique les divers goulots d'étranglement en calcul et en mémoire tout au long du pipeline VLA, limitant ainsi leur déployabilité pratique. Nous présentons EfficientVLA, un cadre d'accélération d'inférence structuré et sans entraînement, qui élimine systématiquement ces obstacles en exploitant de manière cohérente les redondances multifacettes. EfficientVLA intègre de manière synergique trois stratégies ciblées : (1) l'élagage des couches fonctionnellement non essentielles du module de langage, guidé par une analyse des redondances inter-couches ; (2) l'optimisation du chemin de traitement visuel grâce à une stratégie consciente de la tâche qui sélectionne un ensemble compact et diversifié de tokens visuels, équilibrant l'importance critique de la tâche avec la couverture informationnelle ; et (3) la réduction de la redondance temporelle en calcul au sein de la tête d'action itérative basée sur la diffusion, en mettant en cache et en réutilisant stratégiquement des caractéristiques intermédiaires clés. Nous appliquons notre méthode au modèle VLA standard CogACT, obtenant une accélération d'inférence de 1,93X et une réduction des FLOPs à 28,9%, avec seulement une baisse de 0,6% du taux de réussite dans le benchmark SIMPLER.
English
Vision-Language-Action (VLA) models, particularly diffusion-based architectures, demonstrate transformative potential for embodied intelligence but are severely hampered by high computational and memory demands stemming from extensive inherent and inference-time redundancies. While existing acceleration efforts often target isolated inefficiencies, such piecemeal solutions typically fail to holistically address the varied computational and memory bottlenecks across the entire VLA pipeline, thereby limiting practical deployability. We introduce EfficientVLA, a structured and training-free inference acceleration framework that systematically eliminates these barriers by cohesively exploiting multifaceted redundancies. EfficientVLA synergistically integrates three targeted strategies: (1) pruning of functionally inconsequential layers from the language module, guided by an analysis of inter-layer redundancies; (2) optimizing the visual processing pathway through a task-aware strategy that selects a compact, diverse set of visual tokens, balancing task-criticality with informational coverage; and (3) alleviating temporal computational redundancy within the iterative diffusion-based action head by strategically caching and reusing key intermediate features. We apply our method to a standard VLA model CogACT, yielding a 1.93X inference speedup and reduces FLOPs to 28.9%, with only a 0.6% success rate drop in the SIMPLER benchmark.
PDF92June 18, 2025