HySparse: オラクルトークン選択とKVキャッシュ共有を備えたハイブリッド疎注意アーキテクチャ
HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing
February 3, 2026
著者: Yizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen, Zhengju Tang, Zihan Jiang, Yifan Song, Hailin Zhang, Liang Zhao, Bo Yang, Gang Wang, Shijie Cao, Fuli Luo
cs.AI
要旨
本研究では、各フルアテンション層を複数のスパースアテンション層で交互に配置する新たなアーキテクチャ「Hybrid Sparse Attention (HySparse)」を提案する。概念的に単純ながら、HySparseは各スパース層のトークン選択とKVキャッシュを先行するフルアテンション層から戦略的に導出する。このアーキテクチャは、従来のスパースアテンション手法が抱える2つの根本的限界を解決する。第一に、従来手法はトークンの重要度予測に追加の代理指標を必要とすることが多く、複雑性の増加と最適とは言えない性能をもたらしていた。一方HySparseは、フルアテンション層を精密なオラクルとして重要トークンを同定する。第二に、既存のスパースアテンション設計は計算量を削減してもKVキャッシュの節約に至らない場合が多かったが、HySparseはスパースアテンション層でフルアテンションのKVキャッシュを再利用可能にし、計算量とメモリの両方を削減する。HySparseを7Bの密モデルと80BのMoEモデルで評価した結果、全ての設定においてフルアテンション及びハイブリッドSWAベースラインを一貫して上回った。特に総層数49層の80B MoEモデルでは、フルアテンションを適用する層は5層のみながら、KVキャッシュ記憶域を約10分の1に削減しつつ大幅な性能向上を達成している。
English
This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.