HySparse: un'architettura ibrida di attenzione sparsa con selezione oracolare dei token e condivisione della cache KV

Abstract

Questo lavoro introduce Hybrid Sparse Attention (HySparse), una nuova architettura che intercala ogni livello di attenzione completa con diversi livelli di attenzione sparsa. Sebbene concettualmente semplice, HySparse deriva strategicamente la selezione dei token e le cache KV di ogni livello sparso direttamente dal livello di attenzione completa che lo precede. Questa architettura risolve due limitazioni fondamentali dei metodi di attenzione sparsa precedenti. In primo luogo, gli approcci convenzionali si basano tipicamente su proxy aggiuntivi per prevedere l'importanza dei token, introducendo una complessità extra e potenzialmente prestazioni subottimali. Al contrario, HySparse utilizza il livello di attenzione completa come un oracolo preciso per identificare i token importanti. In secondo luogo, le progettazioni esistenti di attenzione sparsa spesso riducono il calcolo senza risparmiare la cache KV. HySparse consente ai livelli di attenzione sparsa di riutilizzare la cache KV dell'attenzione completa, riducendo così sia il calcolo che la memoria. Valutiamo HySparse sia su modelli densi da 7B che su modelli MoE da 80B. In tutte le configurazioni, HySparse supera costantemente sia l'attenzione completa che i baseline ibridi SWA. In particolare, nel modello MoE da 80B con 49 livelli totali, solo 5 livelli impiegano l'attenzione completa, eppure HySparse raggiunge sostanziali miglioramenti delle prestazioni riducendo al contempo lo storage della cache KV di quasi 10 volte.

English

This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.

HySparse: un'architettura ibrida di attenzione sparsa con selezione oracolare dei token e condivisione della cache KV

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Abstract

Support