Die Fallstricke der KV-Cache-Komprimierung

papers.abstract

KV-Cache-Kompression verspricht einen erhöhten Durchsatz und eine verbesserte Effizienz bei vernachlässigbarem Leistungsverlust. Während die Steigerungen im Durchsatz unbestreitbar sind und aktuelle Literatur tatsächlich eine minimale Verschlechterung bei bestimmten Benchmarks gezeigt hat, wurden die Auswirkungen der Kompression in realistischen Szenarien wie Multi-Instruktions-Prompting bisher unzureichend untersucht. In diesem Papier identifizieren wir mehrere Fallstricke, die Praktiker bei der Implementierung von KV-Cache-komprimierten LLMs beachten sollten. Insbesondere zeigen wir, dass bestimmte Anweisungen durch die Kompression deutlich schneller an Qualität verlieren, was dazu führt, dass sie vom LLM vollständig ignoriert werden. Als praktisches Beispiel hierfür beleuchten wir das Phänomen des System-Prompt-Leakings als Fallstudie und zeigen empirisch die Auswirkungen der Kompression auf Leaking und die allgemeine Befolgung von Anweisungen. Wir identifizieren mehrere Faktoren, die eine Rolle beim Prompt-Leaking spielen: die Kompressionsmethode, die Reihenfolge der Anweisungen und die KV-Verdrängungsverzerrung. Anschließend schlagen wir einfache Änderungen an den KV-Cache-Verdrängungsstrategien vor, die die Auswirkungen dieser Faktoren reduzieren und die Gesamtleistung bei Multi-Instruktions-Aufgaben verbessern können.

English

KV cache compression promises increased throughput and efficiency with negligible loss in performance. While the gains in throughput are indisputable and recent literature has indeed shown minimal degradation on particular benchmarks, in general the consequences of compression in realistic scenarios such as multi-instruction prompting have been insufficiently studied. In this paper, we identify several pitfalls practitioners should be aware of when deploying KV cache compressed LLMs. Importantly, we show that certain instructions degrade much more rapidly with compression, effectively causing them to be completely ignored by the LLM. As a practical example of that, we highlight system prompt leakage as a case study, empirically showing the impact of compression on leakage and general instruction following. We show several factors that play a role in prompt leakage: compression method, instruction order, and KV eviction bias. We then propose simple changes to KV cache eviction policies that can reduce the impact of these factors and improve the overall performance in multi-instruction tasks.

Die Fallstricke der KV-Cache-Komprimierung

The Pitfalls of KV Cache Compression

papers.abstract

Support