Veren de gashendel: Het opnieuw bekijken van visuele token-pruning voor versnelling van visie-taalmodellen
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
December 17, 2024
Auteurs: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI
Samenvatting
Recente werken over het versnellen van Vision-Language Modellen tonen aan dat sterke prestaties behouden kunnen blijven over verschillende vision-language taken ondanks het sterk comprimeren van visuele informatie. In dit werk onderzoeken we de populaire versnellingsbenadering van vroeg snoeien van visuele tokens binnen het taalmodel en vinden dat de sterke prestatie over vele taken niet te wijten is aan een uitzonderlijke mogelijkheid om visuele informatie te comprimeren, maar eerder aan de beperkte mogelijkheid van de benchmarks om fijnmazige visuele capaciteiten te beoordelen. We tonen specifiek een kernprobleem met de versnellingsbenadering waarbij de meeste tokens naar de bovenkant van de afbeelding worden weggesnoeid. Toch komt dit probleem alleen tot uiting in prestaties voor een kleine subset van taken zoals lokalisatie. Voor de andere geëvalueerde taken blijven sterke prestaties behouden met de gebrekkige snoeistrategie. Met inachtneming van de beperkte visuele capaciteiten van de bestudeerde versnellings techniek, stellen we FEATHER (Snelle en Effectieve Versnelling met Ensemble Criteria) voor, een eenvoudige benadering die (1) het geïdentificeerde probleem met vroeg-laag snoeien oplost, (2) uniforme steekproeven integreert om dekking over alle afbeeldingsgebieden te garanderen, en (3) snoeien in twee fasen toepast om de criteria effectiever te maken in een latere laag terwijl nog steeds aanzienlijke versnelling wordt bereikt door vroeg-laag snoeien. Met vergelijkbare computationele besparingen vinden we dat FEATHER meer dan 5 keer betere prestaties heeft op de visie-gecentreerde lokalisatie benchmarks in vergelijking met de oorspronkelijke versnellingsbenadering.
English
Recent works on accelerating Vision-Language Models show that strong
performance can be maintained across a variety of vision-language tasks despite
highly compressing visual information. In this work, we examine the popular
acceleration approach of early pruning of visual tokens inside the language
model and find that its strong performance across many tasks is not due to an
exceptional ability to compress visual information, but rather the benchmarks'
limited ability to assess fine-grained visual capabilities. Namely, we
demonstrate a core issue with the acceleration approach where most tokens
towards the top of the image are pruned away. Yet, this issue is only reflected
in performance for a small subset of tasks such as localization. For the other
evaluated tasks, strong performance is maintained with the flawed pruning
strategy. Noting the limited visual capabilities of the studied acceleration
technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble
cRiteria), a straightforward approach that (1) resolves the identified issue
with early-layer pruning, (2) incorporates uniform sampling to ensure coverage
across all image regions, and (3) applies pruning in two stages to allow the
criteria to become more effective at a later layer while still achieving
significant speedup through early-layer pruning. With comparable computational
savings, we find that FEATHER has more than 5times performance improvement
on the vision-centric localization benchmarks compared to the original
acceleration approach.