FASA : Attention parcimonieuse sensible à la fréquence

papers.abstract

Le déploiement des grands modèles de langage (LLM) se heurte à un goulot d'étranglement critique lors du traitement d'entrées longues : l'empreinte mémoire prohibitive du cache clé-valeur (KV). Pour résoudre ce problème, le paradigme de l'élagage de tokens exploite la parcimonie de l'attention pour ne conserver de manière sélective qu'un petit sous-ensemble critique de tokens. Cependant, les approches existantes sont insuffisantes : les méthodes statiques risquent une perte d'information irréversible, et les stratégies dynamiques utilisent des heuristiques qui capturent insuffisamment la nature dépendante de la requête de l'importance des tokens. Nous proposons FASA, un nouveau cadre qui réalise l'éviction de tokens sensible à la requête en prédisant dynamiquement leur importance. FASA découle d'une nouvelle intuition concernant RoPE : la découverte d'une parcimonie fonctionnelle au niveau des blocs de fréquence (FC). Notre constat clé est qu'un petit sous-ensemble identifiable de FC "dominants" présente systématiquement un accord contextuel élevé avec la tête d'attention complète. Cela fournit un proxy robuste et sans coût computationnel pour identifier les tokens saillants. S'appuyant sur cette intuition, FASA identifie d'abord un ensemble critique de tokens à l'aide des FC dominants, puis effectue un calcul d'attention ciblé uniquement sur ce sous-ensemble élagué. Comme il n'accède qu'à une petite fraction du cache KV, FASA réduit considérablement les besoins en bande passante mémoire et le coût computationnel. Sur un spectre de tâches à contexte long, allant de la modélisation de séquences au raisonnement CoT complexe, FASA surpasse systématiquement toutes les méthodes de référence d'éviction de tokens et atteint une précision quasi-oraculaire, démontrant une robustesse remarquable même avec des budgets contraints. Notamment, sur LongBench-V1, FASA atteint près de 100 % des performances du cache KV complet en ne conservant que 256 tokens, et réalise une accélération de 2,56 fois en utilisant seulement 18,9 % du cache sur AIME24.

English

The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.

FASA : Attention parcimonieuse sensible à la fréquence

FASA: Frequency-aware Sparse Attention

papers.abstract

Support