Au-delà de l'attention homogène : des LLM économes en mémoire grâce à un cache KV approximé par transformée de Fourier

papers.abstract

Les grands modèles de langage (LLM) rencontrent des difficultés liées aux exigences de mémoire croissantes du cache clé-valeur (KV) à mesure que les longueurs de contexte augmentent. Les méthodes de compression existantes uniformisent les dimensions des têtes ou reposent sur l'élagage de tokens guidé par l'attention, sacrifiant souvent la précision ou introduisant une surcharge computationnelle. Nous proposons FourierAttention, un cadre sans entraînement qui exploite les rôles hétérogènes des dimensions des têtes de transformateur : les dimensions inférieures privilégient le contexte local, tandis que les dimensions supérieures capturent les dépendances à longue portée. En projetant les dimensions insensibles au contexte long sur des bases de Fourier orthogonales, FourierAttention approxime leur évolution temporelle avec des coefficients spectraux de longueur fixe. Les évaluations sur les modèles LLaMA montrent que FourierAttention atteint la meilleure précision en contexte long sur LongBench et Needle-In-A-Haystack (NIAH). Par ailleurs, un noyau Triton personnalisé, FlashFourierAttention, est conçu pour optimiser la mémoire via des opérations de lecture-écriture rationalisées, permettant un déploiement efficace sans compromis sur les performances.

English

Large Language Models struggle with memory demands from the growing Key-Value (KV) cache as context lengths increase. Existing compression methods homogenize head dimensions or rely on attention-guided token pruning, often sacrificing accuracy or introducing computational overhead. We propose FourierAttention, a training-free framework that exploits the heterogeneous roles of transformer head dimensions: lower dimensions prioritize local context, while upper ones capture long-range dependencies. By projecting the long-context-insensitive dimensions onto orthogonal Fourier bases, FourierAttention approximates their temporal evolution with fixed-length spectral coefficients. Evaluations on LLaMA models show that FourierAttention achieves the best long-context accuracy on LongBench and Needle-In-A-Haystack (NIAH). Besides, a custom Triton kernel, FlashFourierAttention, is designed to optimize memory via streamlined read-write operations, enabling efficient deployment without performance compromise.

Au-delà de l'attention homogène : des LLM économes en mémoire grâce à un cache KV approximé par transformée de Fourier

Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

papers.abstract

Support