ChatPaper.aiChatPaper

Oltre l'attenzione omogenea: LLM efficienti in memoria tramite cache KV approssimata con trasformata di Fourier

Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

June 13, 2025
Autori: Xiaoran Liu, Siyang He, Qiqi Wang, Ruixiao Li, Yuerong Song, Zhigeng Liu, Linlin Li, Qun Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

Abstract

I grandi modelli linguistici (Large Language Models) affrontano difficoltà legate alle esigenze di memoria derivanti dalla crescente cache Chiave-Valore (KV) all'aumentare delle lunghezze del contesto. I metodi di compressione esistenti omogeneizzano le dimensioni delle testine (head dimensions) o si basano sulla potatura dei token guidata dall'attenzione, spesso sacrificando l'accuratezza o introducendo un sovraccarico computazionale. Proponiamo FourierAttention, un framework senza necessità di addestramento che sfrutta i ruoli eterogenei delle dimensioni delle testine nei trasformatori: le dimensioni inferiori privilegiano il contesto locale, mentre quelle superiori catturano le dipendenze a lungo raggio. Proiettando le dimensioni insensibili al contesto lungo su basi di Fourier ortogonali, FourierAttention approssima la loro evoluzione temporale con coefficienti spettrali a lunghezza fissa. Le valutazioni sui modelli LLaMA dimostrano che FourierAttention raggiunge la migliore accuratezza su contesti lunghi in LongBench e Needle-In-A-Haystack (NIAH). Inoltre, è stato progettato un kernel Triton personalizzato, FlashFourierAttention, per ottimizzare la memoria attraverso operazioni di lettura-scrittura semplificate, consentendo un'implementazione efficiente senza compromettere le prestazioni.
English
Large Language Models struggle with memory demands from the growing Key-Value (KV) cache as context lengths increase. Existing compression methods homogenize head dimensions or rely on attention-guided token pruning, often sacrificing accuracy or introducing computational overhead. We propose FourierAttention, a training-free framework that exploits the heterogeneous roles of transformer head dimensions: lower dimensions prioritize local context, while upper ones capture long-range dependencies. By projecting the long-context-insensitive dimensions onto orthogonal Fourier bases, FourierAttention approximates their temporal evolution with fixed-length spectral coefficients. Evaluations on LLaMA models show that FourierAttention achieves the best long-context accuracy on LongBench and Needle-In-A-Haystack (NIAH). Besides, a custom Triton kernel, FlashFourierAttention, is designed to optimize memory via streamlined read-write operations, enabling efficient deployment without performance compromise.
PDF204June 16, 2025