ChatPaper.aiChatPaper

FASA: Atenção Esparsa Consciente da Frequência

FASA: Frequency-aware Sparse Attention

February 3, 2026
Autores: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI

Resumo

A implantação de Modelos de Linguagem de Grande Porte (LLMs) enfrenta um gargalo crítico ao processar entradas extensas: a pegada de memória proibitiva da cache de Chave-Valor (KV). Para resolver este gargalo, o paradigma de poda de *tokens* aproveita a esparsidade da atenção para reter seletivamente um subconjunto pequeno e crítico de *tokens*. No entanto, as abordagens existentes são insuficientes: os métodos estáticos arriscam uma perda irreversível de informação, e as estratégias dinâmicas empregam heurísticas que capturam de forma insuficiente a natureza dependente da consulta da importância dos *tokens*. Propomos o FASA, uma nova estrutura que alcança a evicção de *tokens* consciente da consulta através da previsão dinâmica da sua importância. O FASA decorre de uma nova perceção sobre o RoPE: a descoberta de esparsidade funcional ao nível do segmento de frequência (FC). A nossa principal descoberta é que um subconjunto pequeno e identificável de FCs "dominantes" exibe consistentemente uma alta concordância contextual com a cabeça de atenção completa. Isto fornece um *proxy* robusto e computacionalmente gratuito para identificar *tokens* salientes. Com base nesta perceção, o FASA identifica primeiro um conjunto crítico de *tokens* usando FCs dominantes e, em seguida, executa o cálculo de atenção focado apenas neste subconjunto podado. Como acede apenas a uma pequena fração da cache KV, o FASA reduz drasticamente os requisitos de largura de banda de memória e o custo computacional. Num espectro de tarefas de contexto longo, desde a modelação de sequências até ao raciocínio CoT complexo, o FASA supera consistentemente todas as linhas de base de evicção de *tokens* e alcança uma precisão quase-oráculo, demonstrando uma robustez notável mesmo sob orçamentos restritos. Notablemente, no LongBench-V1, o FASA atinge quase 100% do desempenho da cache KV completa mantendo apenas 256 *tokens* e alcança uma aceleração de 2,56 vezes usando apenas 18,9% da cache no AIME24.
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.
PDF1126February 8, 2026