Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch Fourier-approximierten KV-Cache

papers.abstract

Große Sprachmodelle kämpfen mit den steigenden Speicheranforderungen durch den wachsenden Key-Value (KV)-Cache, wenn die Kontextlängen zunehmen. Bestehende Kompressionsmethoden homogenisieren die Kopf-Dimensionen oder verlassen sich auf aufmerksamkeitsgesteuertes Token-Pruning, was oft zu Genauigkeitseinbußen oder zusätzlichem Rechenaufwand führt. Wir schlagen FourierAttention vor, ein trainingsfreies Framework, das die heterogenen Rollen der Transformer-Kopf-Dimensionen ausnutzt: niedrigere Dimensionen priorisieren den lokalen Kontext, während höhere Dimensionen langreichweitige Abhängigkeiten erfassen. Durch die Projektion der langkontextunempfindlichen Dimensionen auf orthogonale Fourier-Basen approximiert FourierAttention deren zeitliche Entwicklung mit festen spektralen Koeffizienten. Evaluierungen an LLaMA-Modellen zeigen, dass FourierAttention die beste Langkontext-Genauigkeit auf LongBench und Needle-In-A-Haystack (NIAH) erreicht. Zusätzlich wurde ein benutzerdefinierter Triton-Kernel, FlashFourierAttention, entwickelt, um den Speicher durch optimierte Lese-Schreib-Operationen zu optimieren, was eine effiziente Bereitstellung ohne Leistungseinbußen ermöglicht.

English

Large Language Models struggle with memory demands from the growing Key-Value (KV) cache as context lengths increase. Existing compression methods homogenize head dimensions or rely on attention-guided token pruning, often sacrificing accuracy or introducing computational overhead. We propose FourierAttention, a training-free framework that exploits the heterogeneous roles of transformer head dimensions: lower dimensions prioritize local context, while upper ones capture long-range dependencies. By projecting the long-context-insensitive dimensions onto orthogonal Fourier bases, FourierAttention approximates their temporal evolution with fixed-length spectral coefficients. Evaluations on LLaMA models show that FourierAttention achieves the best long-context accuracy on LongBench and Needle-In-A-Haystack (NIAH). Besides, a custom Triton kernel, FlashFourierAttention, is designed to optimize memory via streamlined read-write operations, enabling efficient deployment without performance compromise.

Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch Fourier-approximierten KV-Cache

Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

papers.abstract

Support