ChunkKV: Semantisch behoudende KV-cachecompressie voor efficiënte inferentie van LLM met lange context
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Auteurs: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Samenvatting
Om geheugenkosten te verminderen bij lang-contextueel redeneren met Grote Taalmodellen (LLMs), richten veel recente werken zich op het comprimeren van de sleutel-waarde (KV) cache van verschillende tokens. We identificeren echter dat de vorige KV-cache-compressiemethoden de tokenbelangrijkheid individueel meten, waarbij de afhankelijkheid tussen verschillende tokens in de taalkenmerken van de echte wereld wordt verwaarloosd. In het licht hiervan introduceren we ChunkKV, waarbij de tokens in een 'chunk' worden gegroepeerd als een basiseenheid voor compressie, en waarbij de meest informatieve semantische chunks behouden blijven terwijl de minder belangrijke worden verworpen. Bovendien stellen we vast dat ChunkKV een hogere gelijkenis vertoont in de behouden indices over verschillende lagen, en stellen we laagsgewijs indexhergebruik voor om de computationele overhead verder te verminderen. We hebben ChunkKV geëvalueerd op toonaangevende lang-contextuele benchmarks, waaronder LongBench en Needle-In-A-HayStack, evenals de GSM8K en JailbreakV in-context leerbenchmark. Onze experimenten met instructieafstemming en meerstapsredenering (O1 en R1) LLMs behalen tot 10% prestatieverbetering bij agressieve compressieverhoudingen in vergelijking met bestaande methoden.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.