Sparse-dLLM: Accelerazione dei Modelli Linguistici di Diffusione con Evizione Dinamica della Cache
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction
August 4, 2025
Autori: Yuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) abilitano progressi nel ragionamento e nel decoding parallelo, ma soffrono di una complessità computazionale quadratica proibitiva e di un sovraccarico di memoria durante l'inferenza. Le attuali tecniche di caching accelerano il decoding memorizzando gli stati completi dei layer, ma impongono un uso sostanziale della memoria che limita le applicazioni con contesti lunghi. La nostra analisi dei pattern di attenzione nei dLLM rivela una persistente sparsità cross-layer, con token cruciali che rimangono salienti attraverso i passi di decoding e token a bassa rilevanza che restano irrilevanti, motivando un'evizione selettiva della cache. Proponiamo Sparse-dLLM, il primo framework senza training che integra l'evizione dinamica della cache con l'attenzione sparsa tramite un caching bidirezionale sparsificato ritardato. Sfruttando la stabilità della salienza dei token nel tempo, conserva i token critici ed elimina dinamicamente le voci non importanti di prefisso/suffisso utilizzando una strategia guidata dall'attenzione. Esperimenti estesi sulle serie LLaDA e Dream dimostrano che Sparse-dLLM raggiunge un throughput fino a 10 volte superiore rispetto ai dLLM standard, con prestazioni comparabili e costi di memoria massima simili, superando i metodi precedenti in termini di efficienza ed efficacia.
English
Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and
parallel decoding but suffer from prohibitive quadratic computational
complexity and memory overhead during inference. Current caching techniques
accelerate decoding by storing full-layer states, yet impose substantial memory
usage that limit long-context applications. Our analysis of attention patterns
in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining
salient across decoding steps and low-relevance tokens staying unimportant,
motivating selective cache eviction. We propose Sparse-dLLM, the first
training-free framework integrating dynamic cache eviction with sparse
attention via delayed bidirectional sparse caching. By leveraging the stability
of token saliency over steps, it retains critical tokens and dynamically evicts
unimportant prefix/suffix entries using an attention-guided strategy. Extensive
experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to
10times higher throughput than vanilla dLLMs, with comparable performance
and similar peak memory costs, outperforming previous methods in efficiency and
effectiveness.