ChatPaper.aiChatPaper

FASA: Frequentiebewust Sparse Attention

FASA: Frequency-aware Sparse Attention

February 3, 2026
Auteurs: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI

Samenvatting

De inzet van Large Language Models (LLM's) stuit op een kritieke beperking bij het verwerken van lange invoer: de buitensporige geheugenvoetafdruk van de Key Value (KV)-cache. Om dit knelpunt aan te pakken, benut het token-pruningparadigma aandachtssparsiteit om selectief een kleine, kritieke subset van tokens te behouden. Bestaande methoden schieten echter tekort: statische methoden riskeren onomkeerbaar informatieverlies, en dynamische strategieën gebruiken heuristieken die de query-afhankelijke aard van tokenbelang onvoldoende vatten. Wij stellen FASA voor, een nieuw raamwerk dat query-bewuste tokenverwijdering bereikt door tokenbelang dynamisch te voorspellen. FASA vloeit voort uit een nieuw inzicht in RoPE: de ontdekking van functionele sparsiteit op het niveau van frequentieblokken (FC). Onze belangrijkste bevinding is dat een kleine, identificeerbare subset van "dominante" FC's consistent een hoge contextuele overeenstemming vertoont met de volledige aandachtskop. Dit biedt een robuuste en rekenkundig gratis proxy voor het identificeren van saliante tokens. Voortbouwend op dit inzicht identificeert FASA eerst een kritieke set tokens met behulp van dominante FC's, en voert vervolgens gerichte aandachtberekening uitsluitend op deze uitgedunde subset uit. Omdat slechts een kleine fractie van de KV-cache wordt benaderd, verlaagt FASA de vereisten voor geheugenbandbreedte en de rekenkosten aanzienlijk. Over een spectrum van lange-context taken, van sequentiemodellering tot complexe CoT-redenering, presteert FASA consistent beter dan alle token-verwijderingsbaselines en bereikt bijna oracle-nauwkeurigheid, wat een opmerkelijke robuustheid demonstreert, zelfs onder beperkte budgetten. Opmerkelijk is dat op LongBench-V1 FASA bijna 100% van de volledige KV-prestatie bereikt wanneer slechts 256 tokens worden aangehouden, en een 2,56x versnelling bereikt met slechts 18,9% van de cache op AIME24.
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.
PDF1013February 6, 2026