FastKV: Compresión de Caché KV para un Procesamiento Rápido de Contextos Largos con Propagación Selectiva de Tokens.

Resumen

Si bien los modelos de lenguaje grandes (LLMs) sobresalen en el manejo de secuencias de largo contexto, requieren un considerable almacenamiento en cachés clave-valor (KV) para guardar información contextual, lo cual puede sobrecargar la eficiencia computacional y el uso de memoria. Los esfuerzos previos para comprimir estas cachés KV se centraron principalmente en reducir las demandas de memoria, pero estaban limitados en mejorar la latencia. Para abordar este problema, presentamos FastKV, un método de compresión de caché KV diseñado para mejorar la latencia en secuencias de largo contexto. Para mejorar las velocidades de procesamiento manteniendo la precisión, FastKV adopta un enfoque novedoso de Propagación Selectiva de Tokens (TSP) que conserva la información de contexto completa en las capas iniciales de LLMs y propaga selectivamente solo una parte de esta información en capas más profundas incluso en la etapa de precarga. Además, FastKV incorpora compresión de caché KV consciente de la atención de consultas agrupadas (GQA) para explotar las ventajas de GQA en eficiencia tanto de memoria como computacional. Nuestros resultados experimentales muestran que FastKV logra mejoras de 2.00 veces y 1.40 veces en tiempo hasta el primer token (TTFT) y rendimiento, respectivamente, en comparación con HeadKV, el método de compresión de caché KV de vanguardia. Además, FastKV mantiene con éxito la precisión en benchmarks de largo contexto a niveles comparables con los baselines. Nuestro código está disponible en https://github.com/dongwonjo/FastKV.

English

While large language models (LLMs) excel at handling long-context sequences, they require substantial key-value (KV) caches to store contextual information, which can heavily burden computational efficiency and memory usage. Previous efforts to compress these KV caches primarily focused on reducing memory demands but were limited in enhancing latency. To address this issue, we introduce FastKV, a KV cache compression method designed to enhance latency for long-context sequences. To enhance processing speeds while maintaining accuracy, FastKV adopts a novel Token-Selective Propagation (TSP) approach that retains the full context information in the initial layers of LLMs and selectively propagates only a portion of this information in deeper layers even in the prefill stage. Additionally, FastKV incorporates grouped-query attention (GQA)-aware KV cache compression to exploit the advantages of GQA in both memory and computational efficiency. Our experimental results show that FastKV achieves 2.00times and 1.40times improvements in time-to-first-token (TTFT) and throughput, respectively, compared to HeadKV, the state-of-the-art KV cache compression method. Moreover, FastKV successfully maintains accuracy on long-context benchmarks at levels comparable to the baselines. Our code is available at https://github.com/dongwonjo/FastKV.

FastKV: Compresión de Caché KV para un Procesamiento Rápido de Contextos Largos con Propagación Selectiva de Tokens.

FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation

Resumen

Support