HySparse: Гибридная архитектура разреженного внимания с выбором оракульных токенов и общим кэшем ключей-значений

Аннотация

Данная работа представляет Hybrid Sparse Attention (HySparse) — новую архитектуру, в которой каждый слой полного внимания чередуется с несколькими слоями разреженного внимания. Несмотря на концептуальную простоту, HySparse стратегически выводит выбор токенов и KV-кэши для каждого разреженного слоя непосредственно из предшествующего слоя полного внимания. Эта архитектура устраняет два фундаментальных ограничения предыдущих методов разреженного внимания. Во-первых, традиционные подходы обычно полагаются на дополнительные прокси-метрики для прогнозирования важности токенов, что вносит дополнительную сложность и может приводить к неоптимальной производительности. В отличие от них, HySparse использует слой полного внимания в качестве точного оракула для идентификации важных токенов. Во-вторых, существующие схемы разреженного внимания часто сокращают вычисления, но не экономят KV-кэш. HySparse позволяет слоям разреженного внимания повторно использовать KV-кэш полного внимания, тем самым уменьшая как объем вычислений, так и потребление памяти. Мы оцениваем HySparse на плотных моделях размером 7B и MoE-моделях размером 80B. Во всех конфигурациях HySparse последовательно превосходит как базовые модели с полным вниманием, так и гибридные модели SWA. Примечательно, что в MoE-модели на 80B параметров с общим количеством 49 слоев только 5 слоев используют полное внимание, однако HySparse демонстрирует существенный прирост производительности при сокращении объема хранения KV-кэша почти в 10 раз.

English

This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.

HySparse: Гибридная архитектура разреженного внимания с выбором оракульных токенов и общим кэшем ключей-значений

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Аннотация

Support