Sparse-dLLM : Accélération des LLM de diffusion par éviction dynamique du cache
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction
August 4, 2025
papers.authors: Yuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI
papers.abstract
Les modèles de langage à diffusion (dLLMs) permettent des avancées significatives en matière de raisonnement et de décodage parallèle, mais souffrent d'une complexité computationnelle quadratique prohibitive et d'une surcharge mémoire importante lors de l'inférence. Les techniques actuelles de mise en cache accélèrent le décodage en stockant les états complets des couches, mais imposent une utilisation mémoire substantielle qui limite les applications à contexte long. Notre analyse des motifs d'attention dans les dLLMs révèle une sparsité inter-couches persistante, avec des tokens pivots restant saillants à travers les étapes de décodage et des tokens de faible pertinence demeurant non importants, ce qui motive une éviction sélective du cache. Nous proposons Sparse-dLLM, le premier cadre sans entraînement intégrant une éviction dynamique du cache avec une attention sparse via une mise en cache sparse bidirectionnelle retardée. En exploitant la stabilité de la saillance des tokens au fil des étapes, il conserve les tokens critiques et évacue dynamiquement les entrées de préfixe/suffixe non importantes à l'aide d'une stratégie guidée par l'attention. Des expériences approfondies sur les séries LLaDA et Dream démontrent que Sparse-dLLM atteint un débit jusqu'à 10 fois supérieur à celui des dLLMs classiques, avec des performances comparables et des coûts mémoire de pointe similaires, surpassant les méthodes précédentes en termes d'efficacité et d'efficience.
English
Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and
parallel decoding but suffer from prohibitive quadratic computational
complexity and memory overhead during inference. Current caching techniques
accelerate decoding by storing full-layer states, yet impose substantial memory
usage that limit long-context applications. Our analysis of attention patterns
in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining
salient across decoding steps and low-relevance tokens staying unimportant,
motivating selective cache eviction. We propose Sparse-dLLM, the first
training-free framework integrating dynamic cache eviction with sparse
attention via delayed bidirectional sparse caching. By leveraging the stability
of token saliency over steps, it retains critical tokens and dynamically evicts
unimportant prefix/suffix entries using an attention-guided strategy. Extensive
experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to
10times higher throughput than vanilla dLLMs, with comparable performance
and similar peak memory costs, outperforming previous methods in efficiency and
effectiveness.