ZipVL: Эффективные большие модели видео-языка с динамической разреженностью токенов и сжатием кэша ключ-значение.

Аннотация

Эффективность крупных моделей видео-языка (LVLM) ограничена вычислительным узким местом механизма внимания в фазе предварительного заполнения и узким местом памяти при получении кэша ключ-значение (KV) в фазе декодирования, особенно в сценариях с высоким разрешением изображений или видео. Визуальный контент часто проявляет значительную избыточность, что приводит к очень разреженным картам внимания в LVLM. Эту разреженность можно использовать для ускорения вычислений внимания или сжатия кэша KV с помощью различных подходов. Однако большинство исследований сосредотачиваются только на одном из этих узких мест и недостаточно поддерживают динамическую настройку разреженности для различных слоев или задач. В данной статье мы представляем ZipVL, эффективную инференционную платформу, разработанную для LVLM, которая решает как вычислительные, так и памятные узкие места через стратегию динамического распределения важных токенов. Этот коэффициент определяется адаптивно на основе распределения оценок внимания для конкретного слоя, а не фиксированных гиперпараметров, тем самым повышая эффективность для менее сложных задач, сохраняя при этом высокую производительность для более сложных. Затем мы выбираем важные токены на основе их нормализованных оценок внимания и выполняем механизм внимания исключительно на этих важных токенах для ускорения фазы предварительного заполнения. Для смягчения узкого места памяти в фазе декодирования мы используем квантование смешанной точности для кэша KV, где высокобитовое квантование используется для кэша важных токенов, в то время как низкобитовое квантование применяется к менее важным. Наши эксперименты показывают, что ZipVL может ускорить фазу предварительного заполнения в 2,6 раза и снизить использование памяти GPU на 50,0%, с минимальным снижением точности всего на 0,2% на бенчмарке Video-MME по сравнению с моделью LongVA-7B, эффективно повышая эффективность генерации LVLM.

English

The efficiency of large vision-language models (LVLMs) is constrained by the computational bottleneck of the attention mechanism during the prefill phase and the memory bottleneck of fetching the key-value (KV) cache in the decoding phase, particularly in scenarios involving high-resolution images or videos. Visual content often exhibits substantial redundancy, resulting in highly sparse attention maps within LVLMs. This sparsity can be leveraged to accelerate attention computation or compress the KV cache through various approaches. However, most studies focus on addressing only one of these bottlenecks and do not adequately support dynamic adjustment of sparsity concerning distinct layers or tasks. In this paper, we present ZipVL, an efficient inference framework designed for LVLMs that resolves both computation and memory bottlenecks through a dynamic ratio allocation strategy of important tokens. This ratio is adaptively determined based on the layer-specific distribution of attention scores, rather than fixed hyper-parameters, thereby improving efficiency for less complex tasks while maintaining high performance for more challenging ones. Then we select important tokens based on their normalized attention scores and perform attention mechanism solely on those important tokens to accelerate the prefill phase. To mitigate the memory bottleneck in the decoding phase, we employ mixed-precision quantization to the KV cache, where high-bit quantization is used for caches of important tokens, while low-bit quantization is applied to those of less importance. Our experiments demonstrate that ZipVL can accelerate the prefill phase by 2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively enhancing the generation efficiency of LVLMs.

ZipVL: Эффективные большие модели видео-языка с динамической разреженностью токенов и сжатием кэша ключ-значение.

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Аннотация

Support