ChatPaper.aiChatPaper

Quantification Plug-and-Play du Cache KV en 1.x bits pour les Grands Modèles de Langage Vidéo

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

March 20, 2025
Auteurs: Keda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang
cs.AI

Résumé

Les modèles de langage de grande taille pour vidéo (VideoLLMs) ont démontré leur capacité à traiter des entrées vidéo plus longues et à permettre un raisonnement et une analyse complexes. Cependant, en raison des milliers de tokens visuels provenant des images vidéo, le cache clé-valeur (KV) peut considérablement augmenter les besoins en mémoire, devenant un goulot d'étranglement pour la vitesse d'inférence et l'utilisation de la mémoire. La quantification du cache KV est une approche largement utilisée pour résoudre ce problème. Dans cet article, nous constatons que la quantification à 2 bits du cache KV des VideoLLMs affecte à peine les performances du modèle, tandis que la limite de la quantification du cache KV à des bits encore plus bas n'a pas été explorée. Pour combler cette lacune, nous introduisons VidKV, une méthode de quantification du cache KV plug-and-play pour compresser le cache KV à moins de 2 bits. Plus précisément, (1) pour la clé, nous proposons une stratégie de quantification en précision mixte dans la dimension des canaux, où nous effectuons une quantification à 2 bits pour les canaux anormaux et une quantification à 1 bit combinée à la FFT pour les canaux normaux ; (2) pour la valeur, nous mettons en œuvre une quantification à 1,58 bits tout en filtrant sélectivement les tokens visuels sémantiquement saillants pour une préservation ciblée, afin d'obtenir un meilleur compromis entre précision et performances du modèle. Il est important de noter que nos résultats suggèrent que le cache de valeur des VideoLLMs devrait être quantifié de manière par canal plutôt que par token, comme proposé par les travaux précédents sur la quantification du cache KV pour les LLMs. Empiriquement, des résultats approfondis avec LLaVA-OV-7B et Qwen2.5-VL-7B sur six benchmarks montrent que VidKV compresse efficacement le cache KV à une précision de 1,5 bit et 1,58 bit avec presque aucune baisse de performance par rapport aux versions FP16.
English
Video large language models (VideoLLMs) have demonstrated the capability to process longer video inputs and enable complex reasoning and analysis. However, due to the thousands of visual tokens from the video frames, key-value (KV) cache can significantly increase memory requirements, becoming a bottleneck for inference speed and memory usage. KV cache quantization is a widely used approach to address this problem. In this paper, we find that 2-bit KV quantization of VideoLLMs can hardly hurt the model performance, while the limit of KV cache quantization in even lower bits has not been investigated. To bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization method to compress the KV cache to lower than 2 bits. Specifically, (1) for key, we propose a mixed-precision quantization strategy in the channel dimension, where we perform 2-bit quantization for anomalous channels and 1-bit quantization combined with FFT for normal channels; (2) for value, we implement 1.58-bit quantization while selectively filtering semantically salient visual tokens for targeted preservation, for a better trade-off between precision and model performance. Importantly, our findings suggest that the value cache of VideoLLMs should be quantized in a per-channel fashion instead of the per-token fashion proposed by prior KV cache quantization works for LLMs. Empirically, extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit precision with almost no performance drop compared to the FP16 counterparts.
PDF243March 21, 2025