FASA: Attenzione Sparsa Consapevole della Frequenza
FASA: Frequency-aware Sparse Attention
February 3, 2026
Autori: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI
Abstract
L'implementazione dei Large Language Model (LLM) affronta un collo di bottiglia critico nella gestione di input lunghi: l'impronta di memoria proibitiva della cache Chiave-Valore (KV). Per affrontare questo problema, il paradigma della token pruning sfrutta la sparsità dell'attenzione per trattenere selettivamente un piccolo sottoinsieme critico di token. Tuttavia, gli approcci esistenti sono carenti: i metodi statici rischiano una perdita di informazioni irreversibile, mentre le strategie dinamiche impiegano euristiche che catturano in modo insufficiente la natura dipendente dalla query dell'importanza dei token. Proponiamo FASA, un nuovo framework che realizza l'evizione dei token consapevole della query prevedendo dinamicamente l'importanza dei token. FASA origina da una nuova intuizione sul RoPE: la scoperta di una sparsità funzionale a livello di frequency-chunk (FC). La nostra scoperta chiave è che un piccolo sottoinsieme identificabile di FC "dominanti" mostra costantemente un alto accordo contestuale con la testa di attenzione completa. Questo fornisce un proxy robusto e computazionalmente gratuito per identificare i token salienti. Basandosi su questa intuizione, FASA identifica prima un insieme critico di token utilizzando le FC dominanti, e poi esegue il calcolo dell'attenzione focalizzato esclusivamente su questo sottoinsieme ridotto. Poiché accede solo a una piccola frazione della cache KV, FASA riduce drasticamente i requisiti di banda di memoria e il costo computazionale. In una gamma di task a contesto lungo, dalla modellazione di sequenze al ragionamento CoT complesso, FASA supera costantemente tutti i baseline di evizione dei token e raggiunge un'accuratezza quasi oracolare, dimostrando una notevole robustezza anche con budget vincolati. In particolare, su LongBench-V1, FASA raggiunge quasi il 100% delle prestazioni della cache KV completa mantenendo solo 256 token, e ottiene un speedup di 2,56 volte utilizzando solo il 18,9% della cache su AIME24.
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.