FASA: 주파수 인식 희소 주의
FASA: Frequency-aware Sparse Attention
February 3, 2026
저자: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
cs.AI
초록
대규모 언어 모델(LLM)의 배포는 긴 입력을 처리할 때 키-값(KV) 캐시의 과도한 메모리 사용량이라는 중요한 병목 현상에 직면합니다. 이러한 병목 현상을 해결하기 위해 토큰 프루닝 패러다임은 어텐션 희소성을 활용하여 중요 토큰의 작은 부분집합만을 선택적으로 보존합니다. 그러나 기존 방법들은 한계가 있습니다. 정적 방법은 되돌릴 수 없는 정보 손실의 위험을 내포하고, 동적 전략은 토큰 중요도의 질의 의존적 특성을 충분히 포착하지 못하는 휴리스틱을 사용합니다. 본 논문에서는 토큰 중요도를 동적으로 예측하여 질의 인식 토큰 제거를 달성하는 새로운 프레임워크인 FASA를 제안합니다. FASA는 RoPE에 대한 새로운 통찰, 즉 주파수 청크(FC) 수준에서의 기능적 희소성 발견에서 비롯되었습니다. 우리의 핵심 발견은 소수이며 식별 가능한 "지배적" FC들의 부분집합이 전체 어텐션 헤드와 지속적으로 높은 맥락적 일치를 보인다는 것입니다. 이는 중요한 토큰을 식별하기 위한 강력하면서도 계산 비용이 들지 않는 프록시를 제공합니다. 이러한 통찰을 바탕으로 FASA는 먼저 지배적 FC들을 사용하여 중요한 토큰 집합을 식별한 다음, 이렇게 프루닝된 부분집합에 대해서만 집중적인 어텐션 계산을 수행합니다. KV 캐시의 극히 일부만 접근하므로 FASA는 메모리 대역폭 요구 사항과 계산 비용을 크게 절감합니다. 시퀀스 모델링부터 복잡한 CoT 추론에 이르는 다양한 장문 맥락 작업에서 FASA는 모든 토큰 제거 기준선을 일관되�게 능가하고 제한된 예산 하에서도 놀라운 견고성을 보이며 준-오라클 정확도에 근접하는 성능을 달성합니다. 특히 LongBench-V1에서 FASA는 단 256개의 토큰만 유지할 때 전체 KV 성능의 거의 100%에 도달했으며, AIME24에서 캐시의 18.9%만 사용하여 2.56배의 속도 향상을 달성했습니다.
English
The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.