Plumez l'accélérateur : Réexamen de l'élagage visuel des jetons pour l'accélération des modèles vision-langage
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
December 17, 2024
Auteurs: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI
Résumé
Les travaux récents sur l'accélération des modèles Vision-Language montrent que de bonnes performances peuvent être maintenues sur une variété de tâches vision-language malgré une compression importante de l'information visuelle. Dans ce travail, nous examinons l'approche d'accélération populaire de la taille initiale des jetons visuels à l'intérieur du modèle de langage et constatons que ses bonnes performances sur de nombreuses tâches ne sont pas dues à une capacité exceptionnelle à compresser l'information visuelle, mais plutôt à la capacité limitée des références à évaluer les capacités visuelles fines. En particulier, nous mettons en évidence un problème central avec l'approche d'accélération où la plupart des jetons vers le haut de l'image sont élagués. Cependant, ce problème n'est reflété que dans les performances pour un petit sous-ensemble de tâches telles que la localisation. Pour les autres tâches évaluées, de bonnes performances sont maintenues avec la stratégie d'élagage défectueuse. Notant les capacités visuelles limitées de la technique d'accélération étudiée, nous proposons FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), une approche simple qui (1) résout le problème identifié avec l'élagage des couches initiales, (2) intègre un échantillonnage uniforme pour garantir une couverture de toutes les régions de l'image, et (3) applique l'élagage en deux étapes pour permettre aux critères de devenir plus efficaces à une couche ultérieure tout en réalisant une accélération significative grâce à l'élagage des couches initiales. Avec des économies computationnelles comparables, nous constatons que FEATHER présente une amélioration des performances de plus de 5 fois sur les références de localisation centrées sur la vision par rapport à l'approche d'accélération originale.
English
Recent works on accelerating Vision-Language Models show that strong
performance can be maintained across a variety of vision-language tasks despite
highly compressing visual information. In this work, we examine the popular
acceleration approach of early pruning of visual tokens inside the language
model and find that its strong performance across many tasks is not due to an
exceptional ability to compress visual information, but rather the benchmarks'
limited ability to assess fine-grained visual capabilities. Namely, we
demonstrate a core issue with the acceleration approach where most tokens
towards the top of the image are pruned away. Yet, this issue is only reflected
in performance for a small subset of tasks such as localization. For the other
evaluated tasks, strong performance is maintained with the flawed pruning
strategy. Noting the limited visual capabilities of the studied acceleration
technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble
cRiteria), a straightforward approach that (1) resolves the identified issue
with early-layer pruning, (2) incorporates uniform sampling to ensure coverage
across all image regions, and (3) applies pruning in two stages to allow the
criteria to become more effective at a later layer while still achieving
significant speedup through early-layer pruning. With comparable computational
savings, we find that FEATHER has more than 5times performance improvement
on the vision-centric localization benchmarks compared to the original
acceleration approach.Summary
AI-Generated Summary