Eine einfache und effektive Strategie auf Basis der L2-Norm für die Komprimierung von KV-Caches
A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression
June 17, 2024
Autoren: Alessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini
cs.AI
Zusammenfassung
Die Bereitstellung großer Sprachmodelle (LLMs) wird oft durch den umfangreichen Speicherbedarf des Key-Value (KV)-Caches behindert, insbesondere wenn die Kontextlängen zunehmen. Bestehende Ansätze zur Reduzierung der KV-Cache-Größe beinhalten entweder das Feintuning des Modells, um eine Komprimierungsstrategie zu erlernen, oder die Nutzung von Aufmerksamkeitswerten zur Reduzierung der Sequenzlänge. Wir analysieren die Aufmerksamkeitsverteilungen in auf Decoder-Transformatoren basierenden Modellen und stellen fest, dass die Aufmerksamkeitsallokationsmuster in den meisten Schichten konsistent bleiben. Überraschenderweise finden wir eine klare Korrelation zwischen dem L_2 und den Aufmerksamkeitswerten über gecachten KV-Paaren, wobei ein niedriges L_2 eines Schlüssel-Embeddings in der Regel zu einem hohen Aufmerksamkeitswert während der Dekodierung führt. Diese Erkenntnis deutet darauf hin, dass der Einfluss eines KV-Paares potenziell durch das Schlüssel-Embedding selbst vor der Abfrage bestimmt wird. Basierend auf dieser Beobachtung komprimieren wir den KV-Cache basierend auf dem L_2 der Schlüssel-Embeddings. Unsere experimentellen Ergebnisse zeigen, dass diese einfache Strategie die KV-Cache-Größe bei der Sprachmodellierung und Nadel-im-Heuhaufen-Aufgaben um 50 % reduzieren kann und bei Passwortabrufaufgaben um 90 %, ohne an Genauigkeit zu verlieren.
English
The deployment of large language models (LLMs) is often hindered by the
extensive memory requirements of the Key-Value (KV) cache, especially as
context lengths increase. Existing approaches to reduce the KV cache size
involve either fine-tuning the model to learn a compression strategy or
leveraging attention scores to reduce the sequence length. We analyse the
attention distributions in decoder-only Transformers-based models and observe
that attention allocation patterns stay consistent across most layers.
Surprisingly, we find a clear correlation between the L_2 and the attention
scores over cached KV pairs, where a low L_2 of a key embedding usually leads
to a high attention score during decoding. This finding indicates that the
influence of a KV pair is potentially determined by the key embedding itself
before being queried. Based on this observation, we compress the KV cache based
on the L_2 of key embeddings. Our experimental results show that this simple
strategy can reduce the KV cache size by 50% on language modelling and
needle-in-a-haystack tasks and 90% on passkey retrieval tasks without losing
accuracy.Summary
AI-Generated Summary