HySparse : Une architecture d'attention hybride et parcimonieuse avec sélection oracle de tokens et partage du cache clé-valeur

papers.abstract

Ce travail présente l'Attention Hybride Creuse (HySparse), une nouvelle architecture qui entrelace chaque couche d'attention complète avec plusieurs couches d'attention creuse. Bien que conceptuellement simple, HySparse dérive stratégiquement la sélection de tokens et les caches KV de chaque couche creuse directement à partir de la couche d'attention complète qui la précède. Cette architecture résout deux limitations fondamentales des méthodes d'attention creuse antérieures. Premièrement, les approches conventionnelles reposent généralement sur des proxys supplémentaires pour prédire l'importance des tokens, introduisant une complexité additionnelle et des performances potentiellement sous-optimales. En revanche, HySparse utilise la couche d'attention complète comme un oracle précis pour identifier les tokens importants. Deuxièmement, les conceptions d'attention creuse existantes réduisent souvent le calcul sans économiser le cache KV. HySparse permet aux couches d'attention creuse de réutiliser le cache KV de l'attention complète, réduisant ainsi à la fois le calcul et la mémoire. Nous évaluons HySparse sur des modèles denses 7B et des modèles MoE 80B. Dans tous les contextes, HySparse surpasse systématiquement les lignes de base de l'attention complète et de l'hybride SWA. Notamment, dans le modèle MoE 80B avec 49 couches au total, seulement 5 couches utilisent l'attention complète, pourtant HySparse réalise des gains de performance substantiels tout en réduisant le stockage du cache KV de près de 10 fois.

English

This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.

HySparse : Une architecture d'attention hybride et parcimonieuse avec sélection oracle de tokens et partage du cache clé-valeur

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

papers.abstract

Support