Den Gashebel streicheln: Überprüfung der visuellen Token-Ausdünnung zur Beschleunigung von Bildsprachmodellen
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
December 17, 2024
Autoren: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI
Zusammenfassung
Neuere Arbeiten zur Beschleunigung von Vision-Language-Modellen zeigen, dass trotz einer starken Komprimierung visueller Informationen eine hohe Leistungsfähigkeit über eine Vielzahl von Vision-Language-Aufgaben aufrechterhalten werden kann. In dieser Arbeit untersuchen wir den beliebten Beschleunigungsansatz des frühzeitigen Beschneidens von visuellen Tokens innerhalb des Sprachmodells und stellen fest, dass seine starke Leistungsfähigkeit bei vielen Aufgaben nicht auf einer außergewöhnlichen Fähigkeit zur Komprimierung visueller Informationen beruht, sondern vielmehr auf der begrenzten Fähigkeit der Benchmarks, feingranulare visuelle Fähigkeiten zu bewerten. Insbesondere zeigen wir ein Kernproblem des Beschleunigungsansatzes, bei dem die meisten Tokens oben im Bild abgeschnitten werden. Dieses Problem spiegelt sich jedoch nur bei einer kleinen Teilmenge von Aufgaben wie der Lokalisierung in der Leistung wider. Für die anderen bewerteten Aufgaben wird die starke Leistungsfähigkeit mit der fehlerhaften Beschneidungsstrategie aufrechterhalten. Angesichts der begrenzten visuellen Fähigkeiten der untersuchten Beschleunigungstechnik schlagen wir FEATHER (Schnelle und effektive Beschleunigung mit Ensemble-Kriterien) vor, einen einfachen Ansatz, der (1) das identifizierte Problem des frühzeitigen Beschneidens in den unteren Ebenen löst, (2) eine gleichmäßige Stichprobenahme integriert, um eine Abdeckung aller Bildbereiche sicherzustellen, und (3) das Beschneiden in zwei Stufen anwendet, um die Kriterien in einer späteren Ebene effektiver zu machen, während gleichzeitig eine signifikante Beschleunigung durch frühzeitiges Beschneiden erreicht wird. Bei vergleichbaren Recheneinsparungen stellen wir fest, dass FEATHER im Vergleich zum ursprünglichen Beschleunigungsansatz eine mehr als 5-fache Leistungsverbesserung bei den auf Vision ausgerichteten Lokalisierungs-Benchmarks aufweist.
English
Recent works on accelerating Vision-Language Models show that strong
performance can be maintained across a variety of vision-language tasks despite
highly compressing visual information. In this work, we examine the popular
acceleration approach of early pruning of visual tokens inside the language
model and find that its strong performance across many tasks is not due to an
exceptional ability to compress visual information, but rather the benchmarks'
limited ability to assess fine-grained visual capabilities. Namely, we
demonstrate a core issue with the acceleration approach where most tokens
towards the top of the image are pruned away. Yet, this issue is only reflected
in performance for a small subset of tasks such as localization. For the other
evaluated tasks, strong performance is maintained with the flawed pruning
strategy. Noting the limited visual capabilities of the studied acceleration
technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble
cRiteria), a straightforward approach that (1) resolves the identified issue
with early-layer pruning, (2) incorporates uniform sampling to ensure coverage
across all image regions, and (3) applies pruning in two stages to allow the
criteria to become more effective at a later layer while still achieving
significant speedup through early-layer pruning. With comparable computational
savings, we find that FEATHER has more than 5times performance improvement
on the vision-centric localization benchmarks compared to the original
acceleration approach.Summary
AI-Generated Summary