FastKV : Compression de cache KV pour un traitement rapide de long contexte avec propagation sélective de jetons

papers.abstract

Alors que les grands modèles de langage (LLM) excellent dans la gestion de séquences à long contexte, ils nécessitent des caches substantiels clé-valeur (KV) pour stocker des informations contextuelles, ce qui peut lourdement impacter l'efficacité computationnelle et l'utilisation de la mémoire. Les efforts précédents pour compresser ces caches KV se sont principalement concentrés sur la réduction des besoins en mémoire mais étaient limités dans l'amélioration de la latence. Pour résoudre ce problème, nous introduisons FastKV, une méthode de compression de cache KV conçue pour améliorer la latence des séquences à long contexte. Pour améliorer les vitesses de traitement tout en maintenant la précision, FastKV adopte une approche novatrice de Propagation Sélective de Token (TSP) qui conserve l'ensemble des informations contextuelles dans les couches initiales des LLM et propage sélectivement seulement une partie de ces informations dans les couches plus profondes même à l'étape de préremplissage. De plus, FastKV intègre une compression de cache KV consciente de l'attention de requête groupée (GQA) pour exploiter les avantages de GQA en termes d'efficacité mémoire et computationnelle. Nos résultats expérimentaux montrent que FastKV obtient des améliorations de 2,00 fois et 1,40 fois respectivement en temps jusqu'au premier token (TTFT) et en débit par rapport à HeadKV, la méthode de compression de cache KV de pointe. De plus, FastKV maintient avec succès la précision sur des référentiels à long contexte à des niveaux comparables aux baselines. Notre code est disponible sur https://github.com/dongwonjo/FastKV.

English

While large language models (LLMs) excel at handling long-context sequences, they require substantial key-value (KV) caches to store contextual information, which can heavily burden computational efficiency and memory usage. Previous efforts to compress these KV caches primarily focused on reducing memory demands but were limited in enhancing latency. To address this issue, we introduce FastKV, a KV cache compression method designed to enhance latency for long-context sequences. To enhance processing speeds while maintaining accuracy, FastKV adopts a novel Token-Selective Propagation (TSP) approach that retains the full context information in the initial layers of LLMs and selectively propagates only a portion of this information in deeper layers even in the prefill stage. Additionally, FastKV incorporates grouped-query attention (GQA)-aware KV cache compression to exploit the advantages of GQA in both memory and computational efficiency. Our experimental results show that FastKV achieves 2.00times and 1.40times improvements in time-to-first-token (TTFT) and throughput, respectively, compared to HeadKV, the state-of-the-art KV cache compression method. Moreover, FastKV successfully maintains accuracy on long-context benchmarks at levels comparable to the baselines. Our code is available at https://github.com/dongwonjo/FastKV.

FastKV : Compression de cache KV pour un traitement rapide de long contexte avec propagation sélective de jetons

FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation

papers.abstract

Support