FASA: 周波数対応スパースアテンション
FASA: Frequency-aware Sparse Attention
February 3, 2026
著者: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI
要旨
大規模言語モデル(LLM)の展開において、長い入力系列を扱う際の決定的なボトルネックは、Key Value(KV)キャッシュの膨大なメモリ使用量である。このボトルネックに対処するため、トークン剪定パラダイムは注意機構のスパース性を活用し、重要なトークンのみを選択的に保持する。しかし、既存手法には課題がある。静的手法は情報の不可逆的な損失を招くリスクがあり、動的手法はトークン重要性のクエリ依存性を十分に捉えられないヒューリスティックに依存している。我々はFASAを提案する。これは、トークン重要性を動的に予測することで、クエリを意識したトークン排除を実現する新しいフレームワークである。FASAは、RoPEに関する新たな洞察、すなわち「周波数チャンク(FC)レベルでの機能的なスパース性」の発見に基づいている。我々の重要な発見は、ごく少数の「支配的」FCの部分集合が、完全な注意ヘッドと高い文脈的合意性を一貫して示すことである。これは、重要なトークンを特定するための、頑健かつ計算コストゼロの代理指標となる。この洞察に基づき、FASAはまず支配的FCを用いて重要なトークン集合を特定し、その後、この剪定された部分集合に対してのみ集中した注意計算を実行する。KVキャッシュのごく一部のみにアクセスするため、FASAはメモリ帯域幅要件と計算コストを大幅に削減する。系列モデリングから複雑なCoT推論まで、様々な長文脈タスクにおいて、FASAは全てのトークン排除ベースライン手法を一貫して凌駕し、制約のあるバジェット下でも驚異的な頑健性を示しながら、オラクルに近い精度を達成する。特にLongBench-V1では、わずか256トークンの保持で完全KV性能のほぼ100%を達成し、AIME24ではキャッシュの18.9%のみを使用して2.56倍の高速化を実現した。
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.