ZipVL: Modelos Eficientes de Grande Escala de Visão-Linguagem com Esparsificação Dinâmica de Tokens e Compressão de Cache KV

Resumo

A eficiência dos grandes modelos de visão-linguagem (LVLMs) é limitada pelo gargalo computacional do mecanismo de atenção durante a fase de pré-preenchimento e pelo gargalo de memória ao buscar o cache chave-valor (KV) na fase de decodificação, especialmente em cenários envolvendo imagens ou vídeos de alta resolução. O conteúdo visual frequentemente apresenta considerável redundância, resultando em mapas de atenção altamente esparsos dentro dos LVLMs. Essa dispersão pode ser aproveitada para acelerar o cálculo de atenção ou comprimir o cache KV por meio de várias abordagens. No entanto, a maioria dos estudos se concentra em abordar apenas um desses gargalos e não oferece suporte adequado ao ajuste dinâmico da dispersão em relação a camadas ou tarefas distintas. Neste artigo, apresentamos o ZipVL, um framework de inferência eficiente projetado para LVLMs que resolve tanto os gargalos computacionais quanto de memória por meio de uma estratégia dinâmica de alocação de razão de tokens importantes. Essa razão é determinada de forma adaptativa com base na distribuição de pontuações de atenção específicas da camada, em vez de hiperparâmetros fixos, melhorando assim a eficiência para tarefas menos complexas, mantendo alto desempenho para as mais desafiadoras. Em seguida, selecionamos tokens importantes com base em suas pontuações de atenção normalizadas e realizamos o mecanismo de atenção exclusivamente nesses tokens importantes para acelerar a fase de pré-preenchimento. Para mitigar o gargalo de memória na fase de decodificação, empregamos quantização de precisão mista no cache KV, onde a quantização de bits alta é usada para caches de tokens importantes, enquanto a quantização de bits baixa é aplicada aos de menor importância. Nossos experimentos demonstram que o ZipVL pode acelerar a fase de pré-preenchimento em 2,6 vezes e reduzir o uso de memória da GPU em 50,0%, com uma redução mínima de precisão de apenas 0,2% no benchmark Video-MME em relação ao modelo LongVA-7B, melhorando efetivamente a eficiência de geração dos LVLMs.

English

The efficiency of large vision-language models (LVLMs) is constrained by the computational bottleneck of the attention mechanism during the prefill phase and the memory bottleneck of fetching the key-value (KV) cache in the decoding phase, particularly in scenarios involving high-resolution images or videos. Visual content often exhibits substantial redundancy, resulting in highly sparse attention maps within LVLMs. This sparsity can be leveraged to accelerate attention computation or compress the KV cache through various approaches. However, most studies focus on addressing only one of these bottlenecks and do not adequately support dynamic adjustment of sparsity concerning distinct layers or tasks. In this paper, we present ZipVL, an efficient inference framework designed for LVLMs that resolves both computation and memory bottlenecks through a dynamic ratio allocation strategy of important tokens. This ratio is adaptively determined based on the layer-specific distribution of attention scores, rather than fixed hyper-parameters, thereby improving efficiency for less complex tasks while maintaining high performance for more challenging ones. Then we select important tokens based on their normalized attention scores and perform attention mechanism solely on those important tokens to accelerate the prefill phase. To mitigate the memory bottleneck in the decoding phase, we employ mixed-precision quantization to the KV cache, where high-bit quantization is used for caches of important tokens, while low-bit quantization is applied to those of less importance. Our experiments demonstrate that ZipVL can accelerate the prefill phase by 2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively enhancing the generation efficiency of LVLMs.

ZipVL: Modelos Eficientes de Grande Escala de Visão-Linguagem com Esparsificação Dinâmica de Tokens e Compressão de Cache KV

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Resumo

Support