De Valkuilen van KV-Cachecompressie

Samenvatting

KV-cachecompressie belooft een hogere doorvoer en efficiëntie met een verwaarloosbaar verlies in prestaties. Hoewel de winst in doorvoer onbetwistbaar is en recente literatuur inderdaad minimale degradatie op specifieke benchmarks heeft aangetoond, zijn de gevolgen van compressie in realistische scenario's zoals multi-instructie-prompting over het algemeen onvoldoende bestudeerd. In dit artikel identificeren we verschillende valkuilen waar praktijkmensen zich bewust van moeten zijn bij het implementeren van KV-cache-gecomprimeerde LLM's. Belangrijk is dat we aantonen dat bepaalde instructies veel sneller achteruitgaan bij compressie, waardoor ze in feite volledig worden genegeerd door de LLM. Als een praktisch voorbeeld hiervan belichten we het lekken van systeemprompts als een case study, waarbij we empirisch het effect van compressie op lekken en het volgen van algemene instructies aantonen. We laten verschillende factoren zien die een rol spelen bij het lekken van prompts: compressiemethode, instructievolgorde en KV-verwijderingsbias. Vervolgens stellen we eenvoudige wijzigingen voor in het verwijderingsbeleid van de KV-cache die de impact van deze factoren kunnen verminderen en de algehele prestaties bij multi-instructietaken kunnen verbeteren.

English

KV cache compression promises increased throughput and efficiency with negligible loss in performance. While the gains in throughput are indisputable and recent literature has indeed shown minimal degradation on particular benchmarks, in general the consequences of compression in realistic scenarios such as multi-instruction prompting have been insufficiently studied. In this paper, we identify several pitfalls practitioners should be aware of when deploying KV cache compressed LLMs. Importantly, we show that certain instructions degrade much more rapidly with compression, effectively causing them to be completely ignored by the LLM. As a practical example of that, we highlight system prompt leakage as a case study, empirically showing the impact of compression on leakage and general instruction following. We show several factors that play a role in prompt leakage: compression method, instruction order, and KV eviction bias. We then propose simple changes to KV cache eviction policies that can reduce the impact of these factors and improve the overall performance in multi-instruction tasks.

De Valkuilen van KV-Cachecompressie

The Pitfalls of KV Cache Compression

Samenvatting

Support