HySparse: Uma Arquitetura Híbrida de Atenção Esparsa com Seleção Oracle de Tokens e Compartilhamento de Cache KV

Resumo

Este trabalho introduz a Atenção Híbrida Esparsa (HySparse), uma nova arquitetura que intercala cada camada de atenção completa com várias camadas de atenção esparsa. Embora conceitualmente simples, a HySparse deriva estrategicamente a seleção de *tokens* e as *caches* KV de cada camada esparsa diretamente da camada de atenção completa precedente. Esta arquitetura resolve duas limitações fundamentais dos métodos anteriores de atenção esparsa. Primeiro, as abordagens convencionais geralmente dependem de *proxies* adicionais para prever a importância dos *tokens*, introduzindo complexidade extra e potencialmente um desempenho subótimo. Em contraste, a HySparse usa a camada de atenção completa como um oráculo preciso para identificar *tokens* importantes. Segundo, os projetos existentes de atenção esparsa frequentemente reduzem a computação sem economizar na *cache* KV. A HySparse permite que as camadas de atenção esparsa reutilizem a *cache* KV da atenção completa, reduzindo assim tanto a computação quanto a memória. Avaliamos a HySparse em modelos densos de 7B e modelos MoE de 80B. Em todas as configurações, a HySparse supera consistentemente tanto a atenção completa quanto as linhas de base híbridas SWA. Notavelmente, no modelo MoE de 80B com 49 camadas no total, apenas 5 camadas empregam atenção completa, e ainda assim a HySparse alcança ganhos substanciais de desempenho enquanto reduz o armazenamento da *cache* KV em quase 10 vezes.

English

This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.

HySparse: Uma Arquitetura Híbrida de Atenção Esparsa com Seleção Oracle de Tokens e Compartilhamento de Cache KV

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Resumo

Support