ZipVL : Modèles Vision-Language Large efficaces avec Sparsification Dynamique des Tokens et Compression de Cache KV

papers.abstract

L'efficacité des grands modèles de vision-langage (LVLM) est limitée par le goulot d'étranglement computationnel du mécanisme d'attention pendant la phase de préremplissage et par le goulot d'étranglement de la récupération du cache clé-valeur (KV) dans la phase de décodage, en particulier dans les scénarios impliquant des images ou des vidéos haute résolution. Le contenu visuel présente souvent une redondance substantielle, entraînant des cartes d'attention très clairsemées au sein des LVLM. Cette clairvoyance peut être exploitée pour accélérer le calcul de l'attention ou compresser le cache KV à travers diverses approches. Cependant, la plupart des études se concentrent sur l'adressage d'un seul de ces goulots d'étranglement et ne prennent pas en charge de manière adéquate l'ajustement dynamique de la clairvoyance concernant des couches ou des tâches distinctes. Dans cet article, nous présentons ZipVL, un cadre d'inférence efficace conçu pour les LVLM qui résout à la fois les goulots d'étranglement computationnels et de mémoire grâce à une stratégie dynamique d'allocation de ratio de tokens importants. Ce ratio est déterminé de manière adaptative en fonction de la distribution spécifique de couches des scores d'attention, plutôt que des hyperparamètres fixes, améliorant ainsi l'efficacité pour les tâches moins complexes tout en maintenant de hautes performances pour les tâches plus difficiles. Ensuite, nous sélectionnons les tokens importants en fonction de leurs scores d'attention normalisés et effectuons le mécanisme d'attention uniquement sur ces tokens importants pour accélérer la phase de préremplissage. Pour atténuer le goulot d'étranglement de mémoire dans la phase de décodage, nous utilisons une quantification en virgule flottante mixte pour le cache KV, où une quantification à bits élevés est utilisée pour les caches de tokens importants, tandis qu'une quantification à bits faibles est appliquée à ceux de moindre importance. Nos expériences démontrent que ZipVL peut accélérer la phase de préremplissage de 2,6 fois et réduire l'utilisation de mémoire GPU de 50,0 %, avec une réduction minimale de précision de seulement 0,2 % sur le banc d'essai Video-MME par rapport au modèle LongVA-7B, améliorant efficacement l'efficacité de génération des LVLM.

English

The efficiency of large vision-language models (LVLMs) is constrained by the computational bottleneck of the attention mechanism during the prefill phase and the memory bottleneck of fetching the key-value (KV) cache in the decoding phase, particularly in scenarios involving high-resolution images or videos. Visual content often exhibits substantial redundancy, resulting in highly sparse attention maps within LVLMs. This sparsity can be leveraged to accelerate attention computation or compress the KV cache through various approaches. However, most studies focus on addressing only one of these bottlenecks and do not adequately support dynamic adjustment of sparsity concerning distinct layers or tasks. In this paper, we present ZipVL, an efficient inference framework designed for LVLMs that resolves both computation and memory bottlenecks through a dynamic ratio allocation strategy of important tokens. This ratio is adaptively determined based on the layer-specific distribution of attention scores, rather than fixed hyper-parameters, thereby improving efficiency for less complex tasks while maintaining high performance for more challenging ones. Then we select important tokens based on their normalized attention scores and perform attention mechanism solely on those important tokens to accelerate the prefill phase. To mitigate the memory bottleneck in the decoding phase, we employ mixed-precision quantization to the KV cache, where high-bit quantization is used for caches of important tokens, while low-bit quantization is applied to those of less importance. Our experiments demonstrate that ZipVL can accelerate the prefill phase by 2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively enhancing the generation efficiency of LVLMs.

ZipVL : Modèles Vision-Language Large efficaces avec Sparsification Dynamique des Tokens et Compression de Cache KV

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

papers.abstract

Support