Voorbij Homogene Aandacht: Geheugenefficiënte LLM's via Fourier-Benaderde KV-Cache

Samenvatting

Grote Taalmodellen hebben moeite met de geheugeneisen van de groeiende Key-Value (KV)-cache naarmate de contextlengtes toenemen. Bestaande compressiemethoden homogeniseren de dimensies van de aandachtskoppen of vertrouwen op aandacht-gestuurde tokenpruning, wat vaak ten koste gaat van nauwkeurigheid of rekenkundige overhead introduceert. Wij stellen FourierAttention voor, een trainingsvrij raamwerk dat gebruikmaakt van de heterogene rollen van transformer-kopdimensies: lagere dimensies prioriteren lokale context, terwijl hogere dimensies langeafstandsafhankelijkheden vastleggen. Door de dimensies die ongevoelig zijn voor lange context te projecteren op orthogonale Fourier-basen, benadert FourierAttention hun temporele evolutie met vaste-lengte spectrale coëfficiënten. Evaluaties op LLaMA-modellen laten zien dat FourierAttention de beste nauwkeurigheid voor lange context behaalt op LongBench en Needle-In-A-Haystack (NIAH). Daarnaast is een aangepaste Triton-kernel, FlashFourierAttention, ontworpen om het geheugen te optimaliseren via gestroomlijnde lees-schrijfbewerkingen, wat efficiënte implementatie mogelijk maakt zonder prestatieverlies.

English

Large Language Models struggle with memory demands from the growing Key-Value (KV) cache as context lengths increase. Existing compression methods homogenize head dimensions or rely on attention-guided token pruning, often sacrificing accuracy or introducing computational overhead. We propose FourierAttention, a training-free framework that exploits the heterogeneous roles of transformer head dimensions: lower dimensions prioritize local context, while upper ones capture long-range dependencies. By projecting the long-context-insensitive dimensions onto orthogonal Fourier bases, FourierAttention approximates their temporal evolution with fixed-length spectral coefficients. Evaluations on LLaMA models show that FourierAttention achieves the best long-context accuracy on LongBench and Needle-In-A-Haystack (NIAH). Besides, a custom Triton kernel, FlashFourierAttention, is designed to optimize memory via streamlined read-write operations, enabling efficient deployment without performance compromise.

Voorbij Homogene Aandacht: Geheugenefficiënte LLM's via Fourier-Benaderde KV-Cache

Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

Samenvatting

Support