ChatPaper.aiChatPaper

OBJECTIF : Optimisation de la compression du cache clé-valeur dans la génération de contexte long.

SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

December 18, 2024
Auteurs: Jialong Wu, Zhenglin Wang, Linhai Zhang, Yilong Lai, Yulan He, Deyu Zhou
cs.AI

Résumé

Le cache clé-valeur (KV) est devenu un goulot d'étranglement pour les LLMs dans la génération de contexte long. Malgré les nombreux efforts dans ce domaine, l'optimisation de la phase de décodage est généralement ignorée. Cependant, nous croyons que cette optimisation est cruciale, en particulier pour les tâches de génération de sortie longue, sur la base des deux observations suivantes : (i) une compression excessive pendant la phase de préremplissage, qui nécessite un contexte complet spécifique, nuit à la compréhension de la tâche de raisonnement ; (ii) une déviation des éléments les plus importants se produit dans les tâches de raisonnement avec des sorties longues. Par conséquent, SCOPE, un cadre simple mais efficace qui effectue séparément l'optimisation du cache KV pendant les phases de préremplissage et de décodage, est introduit. Plus précisément, le cache KV pendant la phase de préremplissage est préservé pour maintenir les informations essentielles, tandis qu'une nouvelle stratégie basée sur le glissement est proposée pour sélectionner les éléments les plus importants essentiels pour la phase de décodage. L'utilisation de la mémoire et le transfert de mémoire sont en outre optimisés en utilisant des stratégies adaptatives et discontinues. Des expériences approfondies sur LongGenBench montrent l'efficacité et la généralisation de SCOPE ainsi que sa compatibilité en tant que module complémentaire à d'autres méthodes de compression KV uniquement pour le préremplissage.
English
Key-Value (KV) cache has become a bottleneck of LLMs for long-context generation. Despite the numerous efforts in this area, the optimization for the decoding phase is generally ignored. However, we believe such optimization is crucial, especially for long-output generation tasks based on the following two observations: (i) Excessive compression during the prefill phase, which requires specific full context impairs the comprehension of the reasoning task; (ii) Deviation of heavy hitters occurs in the reasoning tasks with long outputs. Therefore, SCOPE, a simple yet efficient framework that separately performs KV cache optimization during the prefill and decoding phases, is introduced. Specifically, the KV cache during the prefill phase is preserved to maintain the essential information, while a novel strategy based on sliding is proposed to select essential heavy hitters for the decoding phase. Memory usage and memory transfer are further optimized using adaptive and discontinuous strategies. Extensive experiments on LongGenBench show the effectiveness and generalization of SCOPE and its compatibility as a plug-in to other prefill-only KV compression methods.

Summary

AI-Generated Summary

PDF203December 23, 2024