Die Fallstricke der KV-Cache-Komprimierung
The Pitfalls of KV Cache Compression
September 30, 2025
papers.authors: Alex Chen, Renato Geh, Aditya Grover, Guy Van den Broeck, Daniel Israel
cs.AI
papers.abstract
KV-Cache-Kompression verspricht einen erhöhten Durchsatz und eine verbesserte Effizienz bei vernachlässigbarem Leistungsverlust. Während die Steigerungen im Durchsatz unbestreitbar sind und aktuelle Literatur tatsächlich eine minimale Verschlechterung bei bestimmten Benchmarks gezeigt hat, wurden die Auswirkungen der Kompression in realistischen Szenarien wie Multi-Instruktions-Prompting bisher unzureichend untersucht. In diesem Papier identifizieren wir mehrere Fallstricke, die Praktiker bei der Implementierung von KV-Cache-komprimierten LLMs beachten sollten. Insbesondere zeigen wir, dass bestimmte Anweisungen durch die Kompression deutlich schneller an Qualität verlieren, was dazu führt, dass sie vom LLM vollständig ignoriert werden. Als praktisches Beispiel hierfür beleuchten wir das Phänomen des System-Prompt-Leakings als Fallstudie und zeigen empirisch die Auswirkungen der Kompression auf Leaking und die allgemeine Befolgung von Anweisungen. Wir identifizieren mehrere Faktoren, die eine Rolle beim Prompt-Leaking spielen: die Kompressionsmethode, die Reihenfolge der Anweisungen und die KV-Verdrängungsverzerrung. Anschließend schlagen wir einfache Änderungen an den KV-Cache-Verdrängungsstrategien vor, die die Auswirkungen dieser Faktoren reduzieren und die Gesamtleistung bei Multi-Instruktions-Aufgaben verbessern können.
English
KV cache compression promises increased throughput and efficiency with
negligible loss in performance. While the gains in throughput are indisputable
and recent literature has indeed shown minimal degradation on particular
benchmarks, in general the consequences of compression in realistic scenarios
such as multi-instruction prompting have been insufficiently studied. In this
paper, we identify several pitfalls practitioners should be aware of when
deploying KV cache compressed LLMs. Importantly, we show that certain
instructions degrade much more rapidly with compression, effectively causing
them to be completely ignored by the LLM. As a practical example of that, we
highlight system prompt leakage as a case study, empirically showing the impact
of compression on leakage and general instruction following. We show several
factors that play a role in prompt leakage: compression method, instruction
order, and KV eviction bias. We then propose simple changes to KV cache
eviction policies that can reduce the impact of these factors and improve the
overall performance in multi-instruction tasks.