Fast-dLLM: Trainingsvrije versnelling van Diffusion LLM door KV-cache en parallel decoderen mogelijk te maken
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
May 28, 2025
Auteurs: Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie
cs.AI
Samenvatting
Diffusion-gebaseerde grote taalmodellen (Diffusion LLMs) hebben potentie getoond voor niet-autoregressieve tekstgeneratie met parallelle decodeermogelijkheden. Echter blijft de praktische inferentiesnelheid van open-source Diffusion LLMs vaak achter bij autoregressieve modellen vanwege het ontbreken van een Key-Value (KV) Cache en kwaliteitsverlies bij het gelijktijdig decoderen van meerdere tokens. Om deze kloof te overbruggen, introduceren we een nieuw bloksgewijs benaderend KV Cache-mechanisme, speciaal ontworpen voor bidirectionele diffusiemodellen, dat cache-hergebruik mogelijk maakt met een verwaarloosbare prestatievermindering. Daarnaast identificeren we de oorzaak van kwaliteitsverlies bij parallel decoderen als de verstoring van tokenafhankelijkheden onder de aanname van conditionele onafhankelijkheid. Om dit aan te pakken, stellen we een vertrouwensbewuste parallelle decodeerstrategie voor die selectief tokens decodeert die een vertrouwensdrempel overschrijden, waardoor afhankelijkheidschendingen worden beperkt en de generatiekwaliteit behouden blijft. Experimentele resultaten op LLaDA- en Dream-modellen over meerdere LLM-benchmarks tonen een doorvoerverbetering tot 27,6 keer met minimaal nauwkeurigheidsverlies, waardoor de prestatiekloof met autoregressieve modellen wordt gedicht en de weg wordt geëffend voor praktische implementatie van Diffusion LLMs.
English
Diffusion-based large language models (Diffusion LLMs) have shown promise for
non-autoregressive text generation with parallel decoding capabilities.
However, the practical inference speed of open-sourced Diffusion LLMs often
lags behind autoregressive models due to the lack of Key-Value (KV) Cache and
quality degradation when decoding multiple tokens simultaneously. To bridge
this gap, we introduce a novel block-wise approximate KV Cache mechanism
tailored for bidirectional diffusion models, enabling cache reuse with
negligible performance drop. Additionally, we identify the root cause of
generation quality degradation in parallel decoding as the disruption of token
dependencies under the conditional independence assumption. To address this, we
propose a confidence-aware parallel decoding strategy that selectively decodes
tokens exceeding a confidence threshold, mitigating dependency violations and
maintaining generation quality. Experimental results on LLaDA and Dream models
across multiple LLM benchmarks demonstrate up to 27.6times
throughput improvement with minimal accuracy loss, closing the performance gap
with autoregressive models and paving the way for practical deployment of
Diffusion LLMs.