ChatPaper.aiChatPaper

Подстройка газа: Пересмотр обрезки визуальных токенов для ускорения моделей видео-языка

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

December 17, 2024
Авторы: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI

Аннотация

Недавние работы по ускорению моделей видео-языкового взаимодействия показывают, что высокая производительность может быть сохранена при выполнении различных задач видео-языкового взаимодействия, несмотря на сильное сжатие визуальной информации. В данной работе мы исследуем популярный подход к ускорению - раннее обрезание визуальных токенов внутри языковой модели и приходим к выводу, что его высокая производительность во многих задачах обусловлена не столько исключительной способностью сжатия визуальной информации, сколько ограниченной способностью бенчмарков оценивать тонкие визуальные возможности. В частности, мы демонстрируем основную проблему подхода к ускорению, при котором большинство токенов в верхней части изображения отсекаются. Однако эта проблема проявляется только в производительности для небольшого подмножества задач, таких как локализация. Для других оцениваемых задач сильная производительность сохраняется с использованием недостаточно эффективной стратегии обрезания. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (Быстрый и Эффективный Ускоренный подход с Ансамблевыми Критериями), простой подход, который (1) решает выявленную проблему с ранним обрезанием слоев, (2) включает равномерную выборку для обеспечения покрытия всех областей изображения и (3) применяет обрезание в два этапа, чтобы критерии стали более эффективными на более позднем слое, сохраняя при этом значительное ускорение за счет раннего обрезания слоев. С сопоставимыми вычислительными затратами мы обнаружили, что FEATHER имеет более чем в 5 раз улучшенную производительность на бенчмарках локализации, сосредоточенных на визуальных данных, по сравнению с оригинальным подходом к ускорению.
English
Recent works on accelerating Vision-Language Models show that strong performance can be maintained across a variety of vision-language tasks despite highly compressing visual information. In this work, we examine the popular acceleration approach of early pruning of visual tokens inside the language model and find that its strong performance across many tasks is not due to an exceptional ability to compress visual information, but rather the benchmarks' limited ability to assess fine-grained visual capabilities. Namely, we demonstrate a core issue with the acceleration approach where most tokens towards the top of the image are pruned away. Yet, this issue is only reflected in performance for a small subset of tasks such as localization. For the other evaluated tasks, strong performance is maintained with the flawed pruning strategy. Noting the limited visual capabilities of the studied acceleration technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), a straightforward approach that (1) resolves the identified issue with early-layer pruning, (2) incorporates uniform sampling to ensure coverage across all image regions, and (3) applies pruning in two stages to allow the criteria to become more effective at a later layer while still achieving significant speedup through early-layer pruning. With comparable computational savings, we find that FEATHER has more than 5times performance improvement on the vision-centric localization benchmarks compared to the original acceleration approach.

Summary

AI-Generated Summary

PDF132December 18, 2024