Изображение стоит 1/2 токена после слоя 2: ускорение подключения и игры для крупных моделей видео-языка.
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
March 11, 2024
Авторы: Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, Baobao Chang
cs.AI
Аннотация
В данном исследовании мы выявляем явление неэффективного внимания в больших моделях видео-языкового восприятия (LVLM), особенно в таких выдающихся моделях, как LLaVA-1.5, QwenVL-Chat и Video-LLaVA. Мы обнаружили, что вычисление внимания к визуальным токенам крайне неэффективно в глубоких слоях популярных LVLM, что указывает на необходимость использования более разреженного подхода по сравнению с обработкой текстовых данных. Для этой цели мы представляем FastV, универсальный метод, разработанный для оптимизации вычислительной эффективности путем изучения адаптивных шаблонов внимания в начальных слоях и обрезки визуальных токенов в последующих. Наши оценки демонстрируют способность FastV драматически снизить вычислительные затраты (например, на 45% снижение FLOPs для LLaVA-1.5-13B) без ущерба производительности в широком спектре задач понимания изображений и видео. Компромисс между вычислительной эффективностью и производительностью FastV является высоко настраиваемым и позволяет достичь оптимального решения по Парето. Он способен сжимать FLOPs модели с 13 миллиардами параметров, чтобы достичь более низкого бюджета, чем у модели с 7 миллиардами параметров, сохраняя при этом превосходную производительность. Мы считаем, что FastV имеет практическую ценность для развертывания LVLM на периферийных устройствах и коммерческих моделях. Код доступен по ссылке https://github.com/pkunlp-icler/FastV.
English
In this study, we identify the inefficient attention phenomena in Large
Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5,
QwenVL-Chat and Video-LLaVA. We find out that the attention computation over
visual tokens is of extreme inefficiency in the deep layers of popular LVLMs,
suggesting a need for a sparser approach compared to textual data handling. To
this end, we introduce FastV, a versatile plug-and-play method designed to
optimize computational efficiency by learning adaptive attention patterns in
early layers and pruning visual tokens in subsequent ones. Our evaluations
demonstrate FastV's ability to dramatically reduce computational costs (e.g., a
45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a
wide range of image and video understanding tasks. The computational efficiency
and performance trade-off of FastV are highly customizable and
pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve
a lower budget than that of a 7B-parameter model, while still maintaining
superior performance. We believe FastV has practical values for deployment of
LVLMs in edge devices and commercial models. Code is released at
https://github.com/pkunlp-icler/FastV.Summary
AI-Generated Summary