ChunkKV: Compressão de Cache KV Preservando a Semântica para Inferência Eficiente de LLM de Longo Contexto
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Autores: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Resumo
Para reduzir os custos de memória na inferência de longo contexto com Modelos de Linguagem Grandes (LLMs), muitos trabalhos recentes concentram-se na compressão do cache chave-valor (KV) de diferentes tokens. No entanto, identificamos que os métodos de compressão de cache KV anteriores medem a importância do token individualmente, negligenciando a dependência entre diferentes tokens nas características de linguagem do mundo real. Diante disso, introduzimos o ChunkKV, agrupando os tokens em um chunk como uma unidade básica de compressão, e mantendo os chunks semânticos mais informativos enquanto descartamos os menos importantes. Além disso, observando que o ChunkKV exibe maior similaridade nos índices preservados em diferentes camadas, propomos a reutilização de índices camada a camada para reduzir ainda mais a sobrecarga computacional. Avaliamos o ChunkKV em benchmarks de longo contexto de ponta, incluindo LongBench e Needle-In-A-HayStack, bem como o benchmark de aprendizado em contexto GSM8K e JailbreakV. Nossos experimentos com os LLMs de ajuste de instrução e raciocínio multi-etapa (O1 e R1) alcançam até 10\% de melhoria de desempenho sob taxas de compressão agressivas em comparação com métodos existentes.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.Summary
AI-Generated Summary