ChatPaper.aiChatPaper

HySparse: 오라클 토큰 선택 및 KV 캐시 공유를 통한 하이브리드 희소 주의력 아키텍처

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

February 3, 2026
저자: Yizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen, Zhengju Tang, Zihan Jiang, Yifan Song, Hailin Zhang, Liang Zhao, Bo Yang, Gang Wang, Shijie Cao, Fuli Luo
cs.AI

초록

본 연구에서는 각 전체 어텐션 계층을 여러 개의 희소 어텐션 계층과 교차 배치하는 새로운 아키텍처인 Hybrid Sparse Attention(HySparse)을 제안한다. 개념적으로 단순하지만 HySparse는 선행하는 전체 어텐션 계층으로부터 각 희소 계층의 토큰 선택과 KV 캐시를 전략적으로 도출한다. 이 아키텍처는 기존 희소 어텐션 방식의 두 가지 근본적인 한계를 해결한다. 첫째, 기존 접근법은 일반적으로 토큰 중요도를 예측하기 위해 추가적인 프록시에 의존하여 복잡성을 증가시키고 최적이 아닌 성능을 초래할 수 있다. 반면 HySparse는 전체 어텐션 계층을 정확한 오라클로 활용하여 중요한 토큰을 식별한다. 둘째, 기존 희소 어텐션 설계는 종종 KV 캐시를 절약하지 않은 채 계산량만 감소시킨다. HySparse는 희소 어텐션 계층이 전체 어텐션의 KV 캐시를 재사용할 수 있게 하여 계산량과 메모리 사용을 동시에 줄인다. 우리는 HySparse를 7B Dense 모델과 80B MoE 모델에서 평가하였다. 모든 설정에서 HySparse는 전체 어텐션과 하이브리드 SWA 베이스라인을 일관되게 능가했다. 특히 총 49개 계층으로 구성된 80B MoE 모델에서 단 5개의 계층만 전체 어텐션을 사용함에도 불구하고, HySparse는 KV 캐시 저장 공간을 약 10배 가까이 줄이면서도 상당한 성능 향상을 달성했다.
English
This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.
PDF361February 6, 2026