ChatPaper.aiChatPaper

Sparse-dLLM: Beschleunigung von Diffusion LLMs durch dynamische Cache-Auslagerung

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

August 4, 2025
papers.authors: Yuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

papers.abstract

Diffusion Large Language Models (dLLMs) ermöglichen Durchbrüche in der logischen Schlussfolgerung und im parallelen Decodieren, leiden jedoch unter einer prohibitiv quadratischen Rechenkomplexität und einem hohen Speicherbedarf während der Inferenz. Aktuelle Caching-Techniken beschleunigen das Decodieren durch die Speicherung vollständiger Schichtzustände, führen jedoch zu einem erheblichen Speicherverbrauch, der Anwendungen mit langen Kontexten einschränkt. Unsere Analyse der Aufmerksamkeitsmuster in dLLMs zeigt eine persistente spärliche Verteilung über die Schichten hinweg, wobei entscheidende Token über Decodierschritte hinweg relevant bleiben und Token mit geringer Relevanz unwichtig bleiben, was eine selektive Cache-Entfernung motiviert. Wir schlagen Sparse-dLLM vor, das erste trainingsfreie Framework, das dynamische Cache-Entfernung mit spärlicher Aufmerksamkeit durch verzögertes bidirektionales spärliches Caching integriert. Durch die Nutzung der Stabilität der Token-Relevanz über Schritte hinweg behält es kritische Token bei und entfernt dynamisch unwichtige Präfix-/Suffix-Einträge mithilfe einer aufmerksamkeitsgesteuerten Strategie. Umfangreiche Experimente mit der LLaDA- und Dream-Serie zeigen, dass Sparse-dLLM einen bis zu 10-mal höheren Durchsatz als herkömmliche dLLMs erreicht, bei vergleichbarer Leistung und ähnlichen Spitzenspeicherkosten, und damit bisherige Methoden in Effizienz und Effektivität übertrifft.
English
Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and parallel decoding but suffer from prohibitive quadratic computational complexity and memory overhead during inference. Current caching techniques accelerate decoding by storing full-layer states, yet impose substantial memory usage that limit long-context applications. Our analysis of attention patterns in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining salient across decoding steps and low-relevance tokens staying unimportant, motivating selective cache eviction. We propose Sparse-dLLM, the first training-free framework integrating dynamic cache eviction with sparse attention via delayed bidirectional sparse caching. By leveraging the stability of token saliency over steps, it retains critical tokens and dynamically evicts unimportant prefix/suffix entries using an attention-guided strategy. Extensive experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to 10times higher throughput than vanilla dLLMs, with comparable performance and similar peak memory costs, outperforming previous methods in efficiency and effectiveness.
PDF72August 5, 2025