ZipVL: Modelli efficienti di grandi dimensioni visione-linguaggio con sparsificazione dinamica dei token e compressione della cache KV

Abstract

L'efficienza dei grandi modelli di visione-linguaggio (LVLM) è limitata dal collo di bottiglia computazionale del meccanismo di attenzione durante la fase di precaricamento e dal collo di bottiglia di memoria del recupero della cache chiave-valore (KV) nella fase di decodifica, specialmente in scenari che coinvolgono immagini o video ad alta risoluzione. Il contenuto visivo spesso mostra una notevole ridondanza, che si traduce in mappe di attenzione altamente sparse all'interno dei LVLM. Questa sparità può essere sfruttata per accelerare il calcolo dell'attenzione o comprimere la cache KV attraverso vari approcci. Tuttavia, la maggior parte degli studi si concentra solo su uno di questi collo di bottiglia e non supporta adeguatamente l'adattamento dinamico della sparità riguardo a diversi strati o compiti. In questo articolo, presentiamo ZipVL, un framework di inferenza efficiente progettato per i LVLM che risolve sia i collo di bottiglia computazionale che di memoria attraverso una strategia di allocazione dinamica del rapporto di token importanti. Questo rapporto è determinato in modo adattivo in base alla distribuzione specifica dello strato dei punteggi di attenzione, anziché iperparametri fissi, migliorando così l'efficienza per compiti meno complessi mantenendo alte prestazioni per quelli più impegnativi. Successivamente selezioniamo i token importanti in base ai loro punteggi di attenzione normalizzati e eseguiamo il meccanismo di attenzione solo su quei token importanti per accelerare la fase di precaricamento. Per mitigare il collo di bottiglia di memoria nella fase di decodifica, utilizziamo la quantizzazione a precisione mista per la cache KV, dove la quantizzazione ad alta bit è utilizzata per le cache dei token importanti, mentre la quantizzazione a basso bit è applicata a quelli di minore importanza. I nostri esperimenti dimostrano che ZipVL può accelerare la fase di precaricamento di 2,6 volte e ridurre l'utilizzo della memoria GPU del 50,0%, con una riduzione minima dell'accuratezza di soli 0,2% sul benchmark Video-MME rispetto al modello LongVA-7B, migliorando efficacemente l'efficienza di generazione dei LVLM.

English

The efficiency of large vision-language models (LVLMs) is constrained by the computational bottleneck of the attention mechanism during the prefill phase and the memory bottleneck of fetching the key-value (KV) cache in the decoding phase, particularly in scenarios involving high-resolution images or videos. Visual content often exhibits substantial redundancy, resulting in highly sparse attention maps within LVLMs. This sparsity can be leveraged to accelerate attention computation or compress the KV cache through various approaches. However, most studies focus on addressing only one of these bottlenecks and do not adequately support dynamic adjustment of sparsity concerning distinct layers or tasks. In this paper, we present ZipVL, an efficient inference framework designed for LVLMs that resolves both computation and memory bottlenecks through a dynamic ratio allocation strategy of important tokens. This ratio is adaptively determined based on the layer-specific distribution of attention scores, rather than fixed hyper-parameters, thereby improving efficiency for less complex tasks while maintaining high performance for more challenging ones. Then we select important tokens based on their normalized attention scores and perform attention mechanism solely on those important tokens to accelerate the prefill phase. To mitigate the memory bottleneck in the decoding phase, we employ mixed-precision quantization to the KV cache, where high-bit quantization is used for caches of important tokens, while low-bit quantization is applied to those of less importance. Our experiments demonstrate that ZipVL can accelerate the prefill phase by 2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively enhancing the generation efficiency of LVLMs.

ZipVL: Modelli efficienti di grandi dimensioni visione-linguaggio con sparsificazione dinamica dei token e compressione della cache KV

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Abstract

Summary

Support

Support