ChunkKV: Compresión de Caché KV Preservando la Semántica para una Inferencia Eficiente de LLM de Largo Contexto
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Autores: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Resumen
Para reducir los costos de memoria en la inferencia de largo contexto con Modelos de Lenguaje Grandes (LLMs), muchos trabajos recientes se centran en comprimir la caché de clave-valor (KV) de diferentes tokens. Sin embargo, identificamos que los métodos de compresión de caché KV anteriores miden la importancia de los tokens individualmente, descuidando la dependencia entre diferentes tokens en las características del lenguaje del mundo real. A la luz de esto, presentamos ChunkKV, agrupando los tokens en un fragmento como una unidad básica de compresión, y reteniendo los fragmentos semánticos más informativos mientras se descartan los menos importantes. Además, observando que ChunkKV muestra una mayor similitud en los índices preservados a través de diferentes capas, proponemos la reutilización de índices por capa para reducir aún más la carga computacional. Evaluamos ChunkKV en referentes de largo contexto de vanguardia, incluidos LongBench y Needle-In-A-HayStack, así como el referente de aprendizaje en contexto GSM8K y JailbreakV. Nuestros experimentos con ajuste de instrucciones y LLMs de razonamiento multi-paso (O1 y R1) logran hasta un 10\% de mejora de rendimiento bajo ratios de compresión agresivos en comparación con los métodos existentes.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.Summary
AI-Generated Summary