PyramidDrop: Ускорение ваших крупных моделей видео-языка с помощью пирамиды
снижения визуальной избыточностиPyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid
Visual Redundancy Reduction
В больших моделях видео-языка (LVLM) изображения служат входными данными, несущими обилие информации. Как гласит поговорка "Картинка говорит больше, чем тысяча слов", представление одного изображения в текущих LVLM может потребовать сотен или даже тысяч токенов. Это приводит к значительным вычислительным затратам, которые увеличиваются квадратично по мере увеличения разрешения входного изображения, тем самым серьезно влияя на эффективность как обучения, так и вывода. Предыдущие подходы пытались уменьшить количество токенов изображения либо до, либо в начальных слоях LVLM. Однако эти стратегии неизбежно приводят к потере важной информации об изображении, что в конечном итоге снижает производительность модели. Для решения этой проблемы мы проводим эмпирическое исследование, показывающее, что все визуальные токены необходимы для LVLM в поверхностных слоях, и избыточность токенов постепенно увеличивается в более глубоких слоях модели. Для этой цели мы предлагаем PyramidDrop - стратегию уменьшения визуальной избыточности для LVLM с целью повышения их эффективности как в обучении, так и выводе с незначительной потерей производительности. Конкретно, мы разбиваем LVLM на несколько этапов и удаляем часть токенов изображения в конце каждого этапа с заранее определенным коэффициентом, создавая пирамидоподобные визуальные токены по слоям модели. Удаление основано на легком расчете сходства с незначительной временной нагрузкой. Обширные эксперименты показывают, что PyramidDrop может достичь ускорения времени обучения на 40% и FLOPs вывода на 55% для LLaVA-NeXT с сопоставимой производительностью. Кроме того, PyramidDrop также может служить стратегией "вставь и играй" для ускорения вывода без обучения, с лучшей производительностью и более низкой стоимостью вывода по сравнению с аналогами. Мы надеемся, что идеи и подход, представленные PyramidDrop, вдохновят будущие исследования для дальнейшего изучения роли токенов изображения в LVLM.