HySparse: Una arquitectura híbrida de atención dispersa con selección oráculo de tokens y compartición de caché KV

Resumen

Este trabajo presenta la Atención Híbrida Dispersa (HySparse), una nueva arquitectura que intercala cada capa de atención completa con varias capas de atención dispersa. Aunque conceptualmente simple, HySparse deriva estratégicamente la selección de tokens y las cachés KV de cada capa dispersa directamente de la capa de atención completa precedente. Esta arquitectura resuelve dos limitaciones fundamentales de los métodos de atención dispersa anteriores. En primer lugar, los enfoques convencionales suelen depender de proxies adicionales para predecir la importancia de los tokens, lo que introduce complejidad extra y un rendimiento potencialmente subóptimo. Por el contrario, HySparse utiliza la capa de atención completa como un oráculo preciso para identificar los tokens importantes. En segundo lugar, los diseños de atención dispersa existentes a menudo reducen el cómputo sin ahorrar en la caché KV. HySparse permite que las capas de atención dispersa reutilicen la caché KV de la atención completa, reduciendo así tanto el cómputo como la memoria. Evaluamos HySparse en modelos densos de 7B y modelos MoE de 80B. En todos los escenarios, HySparse supera consistentemente tanto a la atención completa como a las líneas base híbridas SWA. Cabe destacar que, en el modelo MoE de 80B con 49 capas en total, solo 5 capas emplean atención completa, y aun así HySparse logra ganancias sustanciales de rendimiento mientras reduce el almacenamiento de la caché KV en casi 10 veces.

English

This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.

HySparse: Una arquitectura híbrida de atención dispersa con selección oráculo de tokens y compartición de caché KV

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Resumen

Support