ChatPaper.aiChatPaper

FASA: Frequenzbewusste Sparse Attention

FASA: Frequency-aware Sparse Attention

February 3, 2026
papers.authors: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI

papers.abstract

Die Bereitstellung großer Sprachmodelle (LLMs) stößt bei der Verarbeitung langer Eingaben auf einen kritischen Engpass: den prohibitiv hohen Speicherbedarf des Key-Value-(KV)-Caches. Um diesen Engpass zu adressieren, nutzt das Paradigma des Token-Prünings die Aufmerksamkeitssparsität, um gezielt eine kleine, kritische Teilmenge von Tokens beizubehalten. Bisherige Ansätze sind jedoch unzureichend: Statische Methoden riskieren irreversible Informationsverluste, und dynamische Strategien verwenden Heuristiken, die die abfrageabhängige Natur der Token-Bedeutung ungenügend erfassen. Wir schlagen FASA vor, einen neuartigen Rahmen, der abfragebewusste Token-Auslagerung durch dynamische Vorhersage der Token-Bedeutung erreicht. FASA basiert auf einer neuen Erkenntnis zu RoPE: der Entdeckung funktionaler Sparsität auf der Ebene der Frequenzblöcke (FCs). Unsere zentrale Erkenntnis ist, dass eine kleine, identifizierbare Teilmenge "dominanter" FCs konsequent eine hohe kontextuelle Übereinstimmung mit dem vollständigen Aufmerksamkeitskopf aufweist. Dies bietet einen robusten und rechenkostenfreien Stellvertreter zur Identifikation relevanter Tokens. Aufbauend auf dieser Erkenntnis identifiziert FASA zunächst eine kritische Menge von Tokens mithilfe dominanter FCs und führt dann eine fokussierte Aufmerksamkeitsberechnung ausschließlich auf dieser reduzierten Teilmenge durch. Da nur auf einen kleinen Bruchteil des KV-Caches zugegriffen wird, reduziert FASA den Speicherbandbreitenbedarf und die Rechenkosten drastisch. Über ein Spektrum von Langkontext-Aufgaben hinweg, von Sequenzmodellierung bis hin zu komplexem CoT-Reasoning, übertrifft FASA konsequent alle Token-Auslagerungs-Baselines und erreicht nahezu Oracle-Genauigkeit, was eine bemerkenswerte Robustheit selbst unter eingeschränkten Budgets demonstriert. Bemerkenswerterweise erreicht FASA auf LongBench-V1 nahezu 100 % der Leistung des vollen KV-Caches bei Beibehaltung von nur 256 Tokens und erzielt auf AIME24 eine 2,56-fache Beschleunigung bei Nutzung von nur 18,9 % des Caches.
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.
PDF1013February 6, 2026