ChatPaper.aiChatPaper

Sparse-dLLM : Accélération des LLM de diffusion par éviction dynamique du cache

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

August 4, 2025
papers.authors: Yuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

papers.abstract

Les modèles de langage à diffusion (dLLMs) permettent des avancées significatives en matière de raisonnement et de décodage parallèle, mais souffrent d'une complexité computationnelle quadratique prohibitive et d'une surcharge mémoire importante lors de l'inférence. Les techniques actuelles de mise en cache accélèrent le décodage en stockant les états complets des couches, mais imposent une utilisation mémoire substantielle qui limite les applications à contexte long. Notre analyse des motifs d'attention dans les dLLMs révèle une sparsité inter-couches persistante, avec des tokens pivots restant saillants à travers les étapes de décodage et des tokens de faible pertinence demeurant non importants, ce qui motive une éviction sélective du cache. Nous proposons Sparse-dLLM, le premier cadre sans entraînement intégrant une éviction dynamique du cache avec une attention sparse via une mise en cache sparse bidirectionnelle retardée. En exploitant la stabilité de la saillance des tokens au fil des étapes, il conserve les tokens critiques et évacue dynamiquement les entrées de préfixe/suffixe non importantes à l'aide d'une stratégie guidée par l'attention. Des expériences approfondies sur les séries LLaDA et Dream démontrent que Sparse-dLLM atteint un débit jusqu'à 10 fois supérieur à celui des dLLMs classiques, avec des performances comparables et des coûts mémoire de pointe similaires, surpassant les méthodes précédentes en termes d'efficacité et d'efficience.
English
Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and parallel decoding but suffer from prohibitive quadratic computational complexity and memory overhead during inference. Current caching techniques accelerate decoding by storing full-layer states, yet impose substantial memory usage that limit long-context applications. Our analysis of attention patterns in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining salient across decoding steps and low-relevance tokens staying unimportant, motivating selective cache eviction. We propose Sparse-dLLM, the first training-free framework integrating dynamic cache eviction with sparse attention via delayed bidirectional sparse caching. By leveraging the stability of token saliency over steps, it retains critical tokens and dynamically evicts unimportant prefix/suffix entries using an attention-guided strategy. Extensive experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to 10times higher throughput than vanilla dLLMs, with comparable performance and similar peak memory costs, outperforming previous methods in efficiency and effectiveness.
PDF72August 5, 2025