IndexCache : Accélération de l'attention creuse par la réutilisation d'indices inter-couches

Résumé

Les workflows agentiels à contexte long sont devenus un cas d'usage déterminant pour les grands modèles de langage, rendant l'efficacité de l'attention cruciale pour la vitesse d'inférence et le coût de service. L'attention éparse relève efficacement ce défi, et DeepSeek Sparse Attention (DSA) en est une solution représentative de qualité production : un indexeur léger sélectionne les k tokens les plus pertinents par requête, réduisant l'attention principale de O(L²) à O(Lk). Cependant, l'indexeur lui-même conserve une complexité O(L²) et doit s'exécuter indépendamment à chaque couche, bien que les sélections top-k résultantes soient très similaires entre couches consécutives. Nous présentons IndexCache, qui exploite cette redondance inter-couches en partitionnant les couches en un petit ensemble de couches Pleines exécutant leur propre indexeur et une majorité de couches Partagées réutilisant simplement les indices top-k de la couche Pleine la plus proche. Nous proposons deux approches complémentaires pour déterminer et optimiser cette configuration. IndexCache sans entraînement applique un algorithme de recherche gloutonne qui sélectionne les couches conservant leurs indexeurs en minimisant directement la perte de modélisation du langage sur un ensemble de calibration, sans mise à jour des poids. IndexCache avec entraînement introduit une perte de distillation multi-couches qui entraîne chaque indexeur conservé contre les distributions d'attention moyennes de toutes les couches qu'il dessert, permettant même à des motifs entrelacés simples d'égaler la précision des indexeurs complets. Les résultats expérimentaux sur un modèle DSA 30B montrent qu'IndexCache peut supprimer 75% des calculs d'indexation avec une dégradation de qualité négligeable, atteignant jusqu'à 1,82× d'accélération en préremplissage et 1,48× en décodage par rapport au DSA standard. Ces résultats positifs sont confirmés par nos expériences préliminaires sur le modèle à l'échelle production GLM-5 (Figure 1).

English

Long-context agentic workflows have emerged as a defining use case for large language models, making attention efficiency critical for both inference speed and serving cost. Sparse attention addresses this challenge effectively, and DeepSeek Sparse Attention (DSA) is a representative production-grade solution: a lightweight lightning indexer selects the top-k most relevant tokens per query, reducing core attention from O(L^2) to O(Lk). However, the indexer itself retains O(L^2) complexity and must run independently at every layer, despite the fact that the resulting top-k selections are highly similar across consecutive layers. We present IndexCache, which exploits this cross-layer redundancy by partitioning layers into a small set of Full layers that run their own indexers and a majority of Shared layers that simply reuse the nearest Full layer's top-k indices. We propose two complementary approaches to determine and optimize this configuration. Training-free IndexCache applies a greedy search algorithm that selects which layers to retain indexers by directly minimizing language modeling loss on a calibration set, requiring no weight updates. Training-aware IndexCache introduces a multi-layer distillation loss that trains each retained indexer against the averaged attention distributions of all layers it serves, enabling even simple interleaved patterns to match full-indexer accuracy. Experimental results on a 30B DSA model show that IndexCache can remove 75% of indexer computations with negligible quality degradation, achieving up to 1.82times prefill speedup and 1.48times decode speedup compared to standard DSA. These positive results are further confirmed by our preliminary experiments on the production-scale GLM-5 model (Figure 1).

IndexCache : Accélération de l'attention creuse par la réutilisation d'indices inter-couches

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Résumé

Support