Изображение стоит 1/2 токена после слоя 2: ускорение подключения и игры для крупных моделей видео-языка.

Аннотация

В данном исследовании мы выявляем явление неэффективного внимания в больших моделях видео-языкового восприятия (LVLM), особенно в таких выдающихся моделях, как LLaVA-1.5, QwenVL-Chat и Video-LLaVA. Мы обнаружили, что вычисление внимания к визуальным токенам крайне неэффективно в глубоких слоях популярных LVLM, что указывает на необходимость использования более разреженного подхода по сравнению с обработкой текстовых данных. Для этой цели мы представляем FastV, универсальный метод, разработанный для оптимизации вычислительной эффективности путем изучения адаптивных шаблонов внимания в начальных слоях и обрезки визуальных токенов в последующих. Наши оценки демонстрируют способность FastV драматически снизить вычислительные затраты (например, на 45% снижение FLOPs для LLaVA-1.5-13B) без ущерба производительности в широком спектре задач понимания изображений и видео. Компромисс между вычислительной эффективностью и производительностью FastV является высоко настраиваемым и позволяет достичь оптимального решения по Парето. Он способен сжимать FLOPs модели с 13 миллиардами параметров, чтобы достичь более низкого бюджета, чем у модели с 7 миллиардами параметров, сохраняя при этом превосходную производительность. Мы считаем, что FastV имеет практическую ценность для развертывания LVLM на периферийных устройствах и коммерческих моделях. Код доступен по ссылке https://github.com/pkunlp-icler/FastV.

English

In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV.

Изображение стоит 1/2 токена после слоя 2: ускорение подключения и игры для крупных моделей видео-языка.

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

Аннотация

Support