ChatPaper.aiChatPaper

FASA: Частотно-ориентированное разреженное внимание

FASA: Frequency-aware Sparse Attention

February 3, 2026
Авторы: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI

Аннотация

Развертывание больших языковых моделей (LLM) сталкивается с критическим узким местом при обработке длинных входных данных: непомерно большим объемом памяти, занимаемым кэшем ключей-значений (KV). Для решения этой проблемы парадигма прунинга токенов использует разреженность внимания для выборочного сохранения небольшого критического подмножества токенов. Однако существующие подходы несовершенны: статические методы рискуют необратимой потерей информации, а динамические стратегии используют эвристики, которые недостаточно отражают зависимый от запроса характер важности токенов. Мы предлагаем FASA — новую структуру, которая обеспечивает осведоженное о запросе вытеснение токенов за счет динамического прогнозирования их важности. FASA основана на новом взгляде на RoPE: открытии функциональной разреженности на уровне частотных чанков (FC). Наше ключевое открытие заключается в том, что небольшое, идентифицируемое подмножество «доминирующих» FC постоянно демонстрирует высокую контекстуальную согласованность с полным механизмом внимания. Это обеспечивает надежный и вычислительно бесплатный прокси-метод для выявления значимых токенов. Опираясь на это наблюдение, FASA сначала идентифицирует критический набор токенов с помощью доминирующих FC, а затем выполняет фокусированное вычисление внимания исключительно на этом прунированном подмножестве. Поскольку доступ осуществляется лишь к небольшой части кэша KV, FASA радикально снижает требования к пропускной способности памяти и вычислительную стоимость. В широком спектре задач с длинным контекстом, от моделирования последовательностей до сложных рассуждений CoT, FASA стабильно превосходит все базовые методы вытеснения токенов и достигает точности, близкой к оракульной, демонстрируя замечательную надежность даже при ограниченных бюджетах. Примечательно, что на LongBench-V1 FASA достигает почти 100% производительности полного кэша KV при сохранении всего 256 токенов и обеспечивает ускорение в 2.56 раза, используя лишь 18.9% кэша на AIME24.
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.
PDF1013February 6, 2026