HySparse: Eine hybride Sparse-Attention-Architektur mit Oracle-Token-Auswahl und geteiltem KV-Cache
HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing
February 3, 2026
papers.authors: Yizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen, Zhengju Tang, Zihan Jiang, Yifan Song, Hailin Zhang, Liang Zhao, Bo Yang, Gang Wang, Shijie Cao, Fuli Luo
cs.AI
papers.abstract
Diese Arbeit stellt Hybrid Sparse Attention (HySparse) vor, eine neue Architektur, die jede Voll-Attention-Schicht mit mehreren Sparse-Attention-Schichten verschachtelt. Obwohl konzeptionell einfach, leitet HySparse die Token-Auswahl und KV-Caches jeder Sparse-Schicht strategisch direkt aus der vorhergehenden Voll-Attention-Schicht ab. Diese Architektur löst zwei grundlegende Einschränkungen früherer Sparse-Attention-Methoden. Erstens stützen sich konventionelle Ansätze typischerweise auf zusätzliche Stellgrößen, um die Token-Bedeutung vorherzusagen, was zusätzliche Komplexität und potenziell suboptimale Leistung mit sich bringt. Im Gegensatz dazu verwendet HySparse die Voll-Attention-Schicht als präzises Oracle, um wichtige Tokens zu identifizieren. Zweitens reduzieren bestehende Sparse-Attention-Designs oft die Berechnungskomplexität, ohne den KV-Cache zu verringern. HySparse ermöglicht es Sparse-Attention-Schichten, den KV-Cache der Voll-Attention wiederzuverwenden, wodurch sowohl Rechenaufwand als auch Speicherbedarf reduziert werden. Wir evaluieren HySparse anhand von 7B-Dense- und 80B-MoE-Modellen. In allen Konfigurationen übertrifft HySparse durchgängig sowohl die Voll-Attention als auch hybride SWA-Baselines. Bemerkenswerterweise werden beim 80B-MoE-Modell mit insgesamt 49 Schichten nur 5 Schichten mit Voll-Attention betrieben, dennoch erzielt HySparse erhebliche Leistungssteigerungen bei gleichzeitiger Reduzierung des KV-Cache-Speichers um fast das 10-fache.
English
This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.