L'attention est tout ce dont vous avez besoin pour le cache KV dans les LLMs de diffusion.

papers.abstract

Ce travail étudie comment recalculer de manière adaptative les caches clé-valeur (KV) pour les grands modèles de langage à diffusion (DLM) afin de maximiser la précision des prédictions tout en minimisant la latence de décodage. Les méthodes précédentes recalculent QKV pour tous les tokens à chaque étape de débruitage et à chaque couche, bien que les états KV changent peu à travers la plupart des étapes, en particulier dans les couches superficielles, ce qui entraîne une redondance substantielle. Nous faisons trois observations : (1) les tokens {bf MASK} distants agissent principalement comme un biais de longueur et peuvent être mis en cache par blocs au-delà de la fenêtre de prédiction active ; (2) la dynamique des KV augmente avec la profondeur, suggérant qu'un rafraîchissement sélectif à partir des couches plus profondes est suffisant ; et (3) le token le plus fréquemment sollicité présente la plus faible dérive des KV, fournissant une limite inférieure conservatrice sur le changement de cache pour les autres tokens. Sur cette base, nous proposons {bf Elastic-Cache}, une stratégie sans apprentissage et indépendante de l'architecture qui décide conjointement {quand} rafraîchir (via un test de dérive basé sur l'attention pour le token le plus sollicité) et {où} rafraîchir (via un calendrier basé sur la profondeur qui recalcule à partir d'une couche choisie tout en réutilisant les caches des couches superficielles et les caches MASK hors fenêtre). Contrairement aux schémas à période fixe, Elastic-Cache effectue des mises à jour de cache adaptatives et conscientes de la couche pour les DLM, réduisant les calculs redondants et accélérant le décodage avec une perte négligeable de qualité de génération. Les expériences sur LLaDA-Instruct, LLaDA-1.5 et LLaDA-V à travers des tâches de raisonnement mathématique et de génération de code démontrent des accélérations constantes : 8,7 fois sur GSM8K (256 tokens), 45,1 fois sur des séquences plus longues, et 4,8 fois sur HumanEval, tout en maintenant systématiquement une précision plus élevée que la référence. Notre méthode atteint un débit significativement plus élevé (6,8 fois sur GSM8K) que les approches existantes basées sur la confiance tout en préservant la qualité de génération, permettant un déploiement pratique des DLM.

English

This work studies how to adaptively recompute key-value (KV) caches for diffusion large language models (DLMs) to maximize prediction accuracy while minimizing decoding latency. Prior methods' decoders recompute QKV for all tokens at every denoising step and layer, despite KV states changing little across most steps, especially in shallow layers, leading to substantial redundancy. We make three observations: (1) distant {bf MASK} tokens primarily act as a length-bias and can be cached block-wise beyond the active prediction window; (2) KV dynamics increase with depth, suggesting that selective refresh starting from deeper layers is sufficient; and (3) the most-attended token exhibits the smallest KV drift, providing a conservative lower bound on cache change for other tokens. Building on these, we propose {bf Elastic-Cache}, a training-free, architecture-agnostic strategy that jointly decides {when} to refresh (via an attention-aware drift test on the most-attended token) and {where} to refresh (via a depth-aware schedule that recomputes from a chosen layer onward while reusing shallow-layer caches and off-window MASK caches). Unlike fixed-period schemes, Elastic-Cache performs adaptive, layer-aware cache updates for diffusion LLMs, reducing redundant computation and accelerating decoding with negligible loss in generation quality. Experiments on LLaDA-Instruct, LLaDA-1.5, and LLaDA-V across mathematical reasoning and code generation tasks demonstrate consistent speedups: 8.7times on GSM8K (256 tokens), 45.1times on longer sequences, and 4.8times on HumanEval, while consistently maintaining higher accuracy than the baseline. Our method achieves significantly higher throughput (6.8times on GSM8K) than existing confidence-based approaches while preserving generation quality, enabling practical deployment of diffusion LLMs.

L'attention est tout ce dont vous avez besoin pour le cache KV dans les LLMs de diffusion.

Attention Is All You Need for KV Cache in Diffusion LLMs

papers.abstract

Support