ChatPaper.aiChatPaper

Fast-dLLM: Trainingsvrije versnelling van Diffusion LLM door KV-cache en parallel decoderen mogelijk te maken

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

May 28, 2025
Auteurs: Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie
cs.AI

Samenvatting

Diffusion-gebaseerde grote taalmodellen (Diffusion LLMs) hebben potentie getoond voor niet-autoregressieve tekstgeneratie met parallelle decodeermogelijkheden. Echter blijft de praktische inferentiesnelheid van open-source Diffusion LLMs vaak achter bij autoregressieve modellen vanwege het ontbreken van een Key-Value (KV) Cache en kwaliteitsverlies bij het gelijktijdig decoderen van meerdere tokens. Om deze kloof te overbruggen, introduceren we een nieuw bloksgewijs benaderend KV Cache-mechanisme, speciaal ontworpen voor bidirectionele diffusiemodellen, dat cache-hergebruik mogelijk maakt met een verwaarloosbare prestatievermindering. Daarnaast identificeren we de oorzaak van kwaliteitsverlies bij parallel decoderen als de verstoring van tokenafhankelijkheden onder de aanname van conditionele onafhankelijkheid. Om dit aan te pakken, stellen we een vertrouwensbewuste parallelle decodeerstrategie voor die selectief tokens decodeert die een vertrouwensdrempel overschrijden, waardoor afhankelijkheidschendingen worden beperkt en de generatiekwaliteit behouden blijft. Experimentele resultaten op LLaDA- en Dream-modellen over meerdere LLM-benchmarks tonen een doorvoerverbetering tot 27,6 keer met minimaal nauwkeurigheidsverlies, waardoor de prestatiekloof met autoregressieve modellen wordt gedicht en de weg wordt geëffend voor praktische implementatie van Diffusion LLMs.
English
Diffusion-based large language models (Diffusion LLMs) have shown promise for non-autoregressive text generation with parallel decoding capabilities. However, the practical inference speed of open-sourced Diffusion LLMs often lags behind autoregressive models due to the lack of Key-Value (KV) Cache and quality degradation when decoding multiple tokens simultaneously. To bridge this gap, we introduce a novel block-wise approximate KV Cache mechanism tailored for bidirectional diffusion models, enabling cache reuse with negligible performance drop. Additionally, we identify the root cause of generation quality degradation in parallel decoding as the disruption of token dependencies under the conditional independence assumption. To address this, we propose a confidence-aware parallel decoding strategy that selectively decodes tokens exceeding a confidence threshold, mitigating dependency violations and maintaining generation quality. Experimental results on LLaDA and Dream models across multiple LLM benchmarks demonstrate up to 27.6times throughput improvement with minimal accuracy loss, closing the performance gap with autoregressive models and paving the way for practical deployment of Diffusion LLMs.
PDF432May 30, 2025