ZipVL: Modelli efficienti di grandi dimensioni visione-linguaggio con sparsificazione dinamica dei token e compressione della cache KV
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression
October 11, 2024
Autori: Yefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Abstract
L'efficienza dei grandi modelli di visione-linguaggio (LVLM) è limitata dal collo di bottiglia computazionale del meccanismo di attenzione durante la fase di precaricamento e dal collo di bottiglia di memoria del recupero della cache chiave-valore (KV) nella fase di decodifica, specialmente in scenari che coinvolgono immagini o video ad alta risoluzione. Il contenuto visivo spesso mostra una notevole ridondanza, che si traduce in mappe di attenzione altamente sparse all'interno dei LVLM. Questa sparità può essere sfruttata per accelerare il calcolo dell'attenzione o comprimere la cache KV attraverso vari approcci. Tuttavia, la maggior parte degli studi si concentra solo su uno di questi collo di bottiglia e non supporta adeguatamente l'adattamento dinamico della sparità riguardo a diversi strati o compiti. In questo articolo, presentiamo ZipVL, un framework di inferenza efficiente progettato per i LVLM che risolve sia i collo di bottiglia computazionale che di memoria attraverso una strategia di allocazione dinamica del rapporto di token importanti. Questo rapporto è determinato in modo adattivo in base alla distribuzione specifica dello strato dei punteggi di attenzione, anziché iperparametri fissi, migliorando così l'efficienza per compiti meno complessi mantenendo alte prestazioni per quelli più impegnativi. Successivamente selezioniamo i token importanti in base ai loro punteggi di attenzione normalizzati e eseguiamo il meccanismo di attenzione solo su quei token importanti per accelerare la fase di precaricamento. Per mitigare il collo di bottiglia di memoria nella fase di decodifica, utilizziamo la quantizzazione a precisione mista per la cache KV, dove la quantizzazione ad alta bit è utilizzata per le cache dei token importanti, mentre la quantizzazione a basso bit è applicata a quelli di minore importanza. I nostri esperimenti dimostrano che ZipVL può accelerare la fase di precaricamento di 2,6 volte e ridurre l'utilizzo della memoria GPU del 50,0%, con una riduzione minima dell'accuratezza di soli 0,2% sul benchmark Video-MME rispetto al modello LongVA-7B, migliorando efficacemente l'efficienza di generazione dei LVLM.
English
The efficiency of large vision-language models (LVLMs) is constrained by the
computational bottleneck of the attention mechanism during the prefill phase
and the memory bottleneck of fetching the key-value (KV) cache in the decoding
phase, particularly in scenarios involving high-resolution images or videos.
Visual content often exhibits substantial redundancy, resulting in highly
sparse attention maps within LVLMs. This sparsity can be leveraged to
accelerate attention computation or compress the KV cache through various
approaches. However, most studies focus on addressing only one of these
bottlenecks and do not adequately support dynamic adjustment of sparsity
concerning distinct layers or tasks. In this paper, we present ZipVL, an
efficient inference framework designed for LVLMs that resolves both computation
and memory bottlenecks through a dynamic ratio allocation strategy of important
tokens. This ratio is adaptively determined based on the layer-specific
distribution of attention scores, rather than fixed hyper-parameters, thereby
improving efficiency for less complex tasks while maintaining high performance
for more challenging ones. Then we select important tokens based on their
normalized attention scores and perform attention mechanism solely on those
important tokens to accelerate the prefill phase. To mitigate the memory
bottleneck in the decoding phase, we employ mixed-precision quantization to the
KV cache, where high-bit quantization is used for caches of important tokens,
while low-bit quantization is applied to those of less importance. Our
experiments demonstrate that ZipVL can accelerate the prefill phase by
2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy
reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively
enhancing the generation efficiency of LVLMs.Summary
AI-Generated Summary