ChunkKV: Compressione della cache KV preservante la semantica per un'efficace inferenza LLM a lungo contesto.
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Autori: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Abstract
Per ridurre i costi di memoria nell'inferenza a lungo contesto con i Grandi Modelli Linguistici (LLM), molti lavori recenti si concentrano sulla compressione della cache chiave-valore (KV) di diversi token. Tuttavia, abbiamo identificato che i metodi di compressione della cache KV precedenti misurano l'importanza del token individualmente, trascurando la dipendenza tra diversi token nelle caratteristiche linguistiche del mondo reale. Alla luce di ciò, introduciamo ChunkKV, raggruppando i token in un chunk come unità di compressione di base, e mantenendo i chunk semantici più informativi scartando quelli meno importanti. Inoltre, osservando che ChunkKV mostra una maggiore similarità negli indici preservati tra diversi strati, proponiamo il riutilizzo degli indici strato per strato per ridurre ulteriormente l'onere computazionale. Abbiamo valutato ChunkKV su benchmark di lungo contesto all'avanguardia tra cui LongBench e Needle-In-A-HayStack, nonché il benchmark di apprendimento in contesto GSM8K e JailbreakV. I nostri esperimenti con i LLM di sintonizzazione delle istruzioni e di ragionamento a più passaggi (O1 e R1) hanno ottenuto fino al 10\% di miglioramento delle prestazioni con rapporti di compressione aggressivi rispetto ai metodi esistenti.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.Summary
AI-Generated Summary