De Valkuilen van KV-Cachecompressie
The Pitfalls of KV Cache Compression
September 30, 2025
Auteurs: Alex Chen, Renato Geh, Aditya Grover, Guy Van den Broeck, Daniel Israel
cs.AI
Samenvatting
KV-cachecompressie belooft een hogere doorvoer en efficiëntie met een verwaarloosbaar verlies in prestaties. Hoewel de winst in doorvoer onbetwistbaar is en recente literatuur inderdaad minimale degradatie op specifieke benchmarks heeft aangetoond, zijn de gevolgen van compressie in realistische scenario's zoals multi-instructie-prompting over het algemeen onvoldoende bestudeerd. In dit artikel identificeren we verschillende valkuilen waar praktijkmensen zich bewust van moeten zijn bij het implementeren van KV-cache-gecomprimeerde LLM's. Belangrijk is dat we aantonen dat bepaalde instructies veel sneller achteruitgaan bij compressie, waardoor ze in feite volledig worden genegeerd door de LLM. Als een praktisch voorbeeld hiervan belichten we het lekken van systeemprompts als een case study, waarbij we empirisch het effect van compressie op lekken en het volgen van algemene instructies aantonen. We laten verschillende factoren zien die een rol spelen bij het lekken van prompts: compressiemethode, instructievolgorde en KV-verwijderingsbias. Vervolgens stellen we eenvoudige wijzigingen voor in het verwijderingsbeleid van de KV-cache die de impact van deze factoren kunnen verminderen en de algehele prestaties bij multi-instructietaken kunnen verbeteren.
English
KV cache compression promises increased throughput and efficiency with
negligible loss in performance. While the gains in throughput are indisputable
and recent literature has indeed shown minimal degradation on particular
benchmarks, in general the consequences of compression in realistic scenarios
such as multi-instruction prompting have been insufficiently studied. In this
paper, we identify several pitfalls practitioners should be aware of when
deploying KV cache compressed LLMs. Importantly, we show that certain
instructions degrade much more rapidly with compression, effectively causing
them to be completely ignored by the LLM. As a practical example of that, we
highlight system prompt leakage as a case study, empirically showing the impact
of compression on leakage and general instruction following. We show several
factors that play a role in prompt leakage: compression method, instruction
order, and KV eviction bias. We then propose simple changes to KV cache
eviction policies that can reduce the impact of these factors and improve the
overall performance in multi-instruction tasks.