Fast-dLLM: Accelerazione senza addestramento di Diffusion LLM abilitando la KV Cache e il Decodifica Parallelo
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
May 28, 2025
Autori: Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (Diffusion LLMs) hanno dimostrato potenziale per la generazione di testo non autoregressiva con capacità di decodifica parallela. Tuttavia, la velocità pratica di inferenza dei Diffusion LLMs open-source spesso rimane indietro rispetto ai modelli autoregressivi a causa della mancanza di una cache Key-Value (KV) e del degrado della qualità quando si decodificano più token simultaneamente. Per colmare questa lacuna, introduciamo un nuovo meccanismo di cache KV approssimata a blocchi, progettato specificamente per modelli di diffusione bidirezionali, che consente il riutilizzo della cache con un calo di prestazioni trascurabile. Inoltre, identifichiamo la causa principale del degrado della qualità nella generazione durante la decodifica parallela come l'interruzione delle dipendenze tra token sotto l'assunzione di indipendenza condizionale. Per affrontare questo problema, proponiamo una strategia di decodifica parallela basata sulla confidenza che selettivamente decodifica i token che superano una soglia di confidenza, mitigando le violazioni delle dipendenze e mantenendo la qualità della generazione. I risultati sperimentali sui modelli LLaDA e Dream attraverso molteplici benchmark per LLM dimostrano un miglioramento fino a 27,6 volte nella velocità di elaborazione con una perdita minima di accuratezza, riducendo il divario prestazionale con i modelli autoregressivi e aprendo la strada a un impiego pratico dei Diffusion LLMs.
English
Diffusion-based large language models (Diffusion LLMs) have shown promise for
non-autoregressive text generation with parallel decoding capabilities.
However, the practical inference speed of open-sourced Diffusion LLMs often
lags behind autoregressive models due to the lack of Key-Value (KV) Cache and
quality degradation when decoding multiple tokens simultaneously. To bridge
this gap, we introduce a novel block-wise approximate KV Cache mechanism
tailored for bidirectional diffusion models, enabling cache reuse with
negligible performance drop. Additionally, we identify the root cause of
generation quality degradation in parallel decoding as the disruption of token
dependencies under the conditional independence assumption. To address this, we
propose a confidence-aware parallel decoding strategy that selectively decodes
tokens exceeding a confidence threshold, mitigating dependency violations and
maintaining generation quality. Experimental results on LLaDA and Dream models
across multiple LLM benchmarks demonstrate up to 27.6times
throughput improvement with minimal accuracy loss, closing the performance gap
with autoregressive models and paving the way for practical deployment of
Diffusion LLMs.