ChatPaper.aiChatPaper

Une stratégie simple et efficace basée sur la norme L_2 pour la compression du cache KV

A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

June 17, 2024
Auteurs: Alessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini
cs.AI

Résumé

Le déploiement des grands modèles de langage (LLM) est souvent entravé par les exigences mémoire importantes du cache clé-valeur (KV), en particulier à mesure que les longueurs de contexte augmentent. Les approches existantes pour réduire la taille du cache KV impliquent soit un ajustement fin du modèle pour apprendre une stratégie de compression, soit l'utilisation des scores d'attention pour réduire la longueur de la séquence. Nous analysons les distributions d'attention dans les modèles basés sur des Transformers à décodeur uniquement et observons que les schémas d'allocation de l'attention restent cohérents à travers la plupart des couches. Étonnamment, nous trouvons une corrélation claire entre la norme L_2 et les scores d'attention sur les paires KV mises en cache, où une faible norme L_2 d'une clé d'embedding conduit généralement à un score d'attention élevé lors du décodage. Cette découverte indique que l'influence d'une paire KV est potentiellement déterminée par l'embedding de la clé elle-même avant d'être interrogée. Sur la base de cette observation, nous compressons le cache KV en fonction de la norme L_2 des embeddings de clés. Nos résultats expérimentaux montrent que cette stratégie simple peut réduire la taille du cache KV de 50 % sur des tâches de modélisation du langage et de recherche d'une aiguille dans une botte de foin, et de 90 % sur des tâches de récupération de passkey, sans perte de précision.
English
The deployment of large language models (LLMs) is often hindered by the extensive memory requirements of the Key-Value (KV) cache, especially as context lengths increase. Existing approaches to reduce the KV cache size involve either fine-tuning the model to learn a compression strategy or leveraging attention scores to reduce the sequence length. We analyse the attention distributions in decoder-only Transformers-based models and observe that attention allocation patterns stay consistent across most layers. Surprisingly, we find a clear correlation between the L_2 and the attention scores over cached KV pairs, where a low L_2 of a key embedding usually leads to a high attention score during decoding. This finding indicates that the influence of a KV pair is potentially determined by the key embedding itself before being queried. Based on this observation, we compress the KV cache based on the L_2 of key embeddings. Our experimental results show that this simple strategy can reduce the KV cache size by 50% on language modelling and needle-in-a-haystack tasks and 90% on passkey retrieval tasks without losing accuracy.

Summary

AI-Generated Summary

PDF243December 6, 2024