Sparse-dLLM: Accelerazione dei Modelli Linguistici di Diffusione con Evizione Dinamica della Cache

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) abilitano progressi nel ragionamento e nel decoding parallelo, ma soffrono di una complessità computazionale quadratica proibitiva e di un sovraccarico di memoria durante l'inferenza. Le attuali tecniche di caching accelerano il decoding memorizzando gli stati completi dei layer, ma impongono un uso sostanziale della memoria che limita le applicazioni con contesti lunghi. La nostra analisi dei pattern di attenzione nei dLLM rivela una persistente sparsità cross-layer, con token cruciali che rimangono salienti attraverso i passi di decoding e token a bassa rilevanza che restano irrilevanti, motivando un'evizione selettiva della cache. Proponiamo Sparse-dLLM, il primo framework senza training che integra l'evizione dinamica della cache con l'attenzione sparsa tramite un caching bidirezionale sparsificato ritardato. Sfruttando la stabilità della salienza dei token nel tempo, conserva i token critici ed elimina dinamicamente le voci non importanti di prefisso/suffisso utilizzando una strategia guidata dall'attenzione. Esperimenti estesi sulle serie LLaDA e Dream dimostrano che Sparse-dLLM raggiunge un throughput fino a 10 volte superiore rispetto ai dLLM standard, con prestazioni comparabili e costi di memoria massima simili, superando i metodi precedenti in termini di efficienza ed efficacia.

English

Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and parallel decoding but suffer from prohibitive quadratic computational complexity and memory overhead during inference. Current caching techniques accelerate decoding by storing full-layer states, yet impose substantial memory usage that limit long-context applications. Our analysis of attention patterns in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining salient across decoding steps and low-relevance tokens staying unimportant, motivating selective cache eviction. We propose Sparse-dLLM, the first training-free framework integrating dynamic cache eviction with sparse attention via delayed bidirectional sparse caching. By leveraging the stability of token saliency over steps, it retains critical tokens and dynamically evicts unimportant prefix/suffix entries using an attention-guided strategy. Extensive experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to 10times higher throughput than vanilla dLLMs, with comparable performance and similar peak memory costs, outperforming previous methods in efficiency and effectiveness.

Sparse-dLLM: Accelerazione dei Modelli Linguistici di Diffusione con Evizione Dinamica della Cache

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

Abstract

Support