ZipVL: Modelos Eficientes de Visión-Lenguaje Amplios con Esparsificación Dinámica de Tokens y Compresión de Caché KV
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression
October 11, 2024
Autores: Yefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Resumen
La eficiencia de los modelos grandes de visión y lenguaje (LVLMs) se ve limitada por el cuello de botella computacional del mecanismo de atención durante la fase de precarga y el cuello de botella de memoria al recuperar la caché clave-valor (KV) en la fase de decodificación, especialmente en escenarios que involucran imágenes o videos de alta resolución. El contenido visual a menudo presenta una redundancia sustancial, lo que resulta en mapas de atención altamente dispersos dentro de los LVLMs. Esta dispersión se puede aprovechar para acelerar el cálculo de atención o comprimir la caché KV a través de varios enfoques. Sin embargo, la mayoría de los estudios se centran en abordar solo uno de estos cuellos de botella y no respaldan adecuadamente el ajuste dinámico de la dispersión en relación con capas o tareas distintas. En este artículo, presentamos ZipVL, un marco de inferencia eficiente diseñado para LVLMs que resuelve tanto los cuellos de botella computacionales como de memoria a través de una estrategia dinámica de asignación de ratio de tokens importantes. Este ratio se determina de forma adaptativa en función de la distribución específica de capa de los puntajes de atención, en lugar de hiperparámetros fijos, mejorando así la eficiencia para tareas menos complejas mientras se mantiene un alto rendimiento para las más desafiantes. Luego seleccionamos tokens importantes en función de sus puntajes de atención normalizados y realizamos el mecanismo de atención únicamente en esos tokens importantes para acelerar la fase de precarga. Para mitigar el cuello de botella de memoria en la fase de decodificación, empleamos cuantización de precisión mixta en la caché KV, donde se utiliza cuantización de bits altos para las cachés de tokens importantes, mientras que se aplica cuantización de bits bajos a las de menor importancia. Nuestros experimentos demuestran que ZipVL puede acelerar la fase de precarga en 2.6 veces y reducir el uso de memoria de la GPU en un 50.0%, con una reducción mínima de precisión de solo 0.2% en el benchmark Video-MME sobre el modelo LongVA-7B, mejorando efectivamente la eficiencia de generación de LVLMs.
English
The efficiency of large vision-language models (LVLMs) is constrained by the
computational bottleneck of the attention mechanism during the prefill phase
and the memory bottleneck of fetching the key-value (KV) cache in the decoding
phase, particularly in scenarios involving high-resolution images or videos.
Visual content often exhibits substantial redundancy, resulting in highly
sparse attention maps within LVLMs. This sparsity can be leveraged to
accelerate attention computation or compress the KV cache through various
approaches. However, most studies focus on addressing only one of these
bottlenecks and do not adequately support dynamic adjustment of sparsity
concerning distinct layers or tasks. In this paper, we present ZipVL, an
efficient inference framework designed for LVLMs that resolves both computation
and memory bottlenecks through a dynamic ratio allocation strategy of important
tokens. This ratio is adaptively determined based on the layer-specific
distribution of attention scores, rather than fixed hyper-parameters, thereby
improving efficiency for less complex tasks while maintaining high performance
for more challenging ones. Then we select important tokens based on their
normalized attention scores and perform attention mechanism solely on those
important tokens to accelerate the prefill phase. To mitigate the memory
bottleneck in the decoding phase, we employ mixed-precision quantization to the
KV cache, where high-bit quantization is used for caches of important tokens,
while low-bit quantization is applied to those of less importance. Our
experiments demonstrate that ZipVL can accelerate the prefill phase by
2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy
reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively
enhancing the generation efficiency of LVLMs.Summary
AI-Generated Summary