dParallel: Leerbare Parallelle Decodering voor dLLMs
dParallel: Learnable Parallel Decoding for dLLMs
September 30, 2025
Auteurs: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI
Samenvatting
Diffusion grote taalmodellen (dLLMs) hebben recentelijk aanzienlijke aandacht getrokken binnen de onderzoeksgemeenschap als een veelbelovend alternatief voor autoregressieve generatie, waarbij ze parallelle tokenvoorspelling en lagere inferentielatentie bieden. Toch blijft hun potentieel voor parallelle decodering grotendeels onbenut, aangezien bestaande open-source modellen nog steeds bijna token-lengte decoderingstappen vereisen om de prestaties te garanderen. Om dit aan te pakken, introduceren we dParallel, een eenvoudige en effectieve methode die het inherente parallellisme van dLLMs ontsluit voor snelle sampling. We identificeren dat de belangrijkste bottleneck voor parallelle decodering voortkomt uit de sequentiële zekerheidsconvergentie voor gemaskeerde tokens. Op basis van dit inzicht introduceren we de kern van onze aanpak: certainty-forcing distillatie, een nieuwe trainingsstrategie die het model distilleert om zijn oorspronkelijke samplingtrajecten te volgen, terwijl het wordt afgedwongen om sneller en parallel hoge zekerheid te bereiken voor gemaskeerde tokens. Uitgebreide experimenten over verschillende benchmarks tonen aan dat onze methode het aantal decoderingstappen aanzienlijk kan verminderen terwijl de prestaties behouden blijven. Wanneer toegepast op het LLaDA-8B-Instruct model, reduceert dParallel de decoderingstappen van 256 naar 30 op GSM8K, wat een 8,5x versnelling oplevert zonder prestatieverlies. Op de MBPP-benchmark worden de decoderingstappen teruggebracht van 256 naar 24, wat resulteert in een 10,5x versnelling terwijl de nauwkeurigheid behouden blijft. Onze code is beschikbaar op https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable
attention within the research community as a promising alternative to
autoregressive generation, offering parallel token prediction and lower
inference latency. Yet, their parallel decoding potential remains largely
underexplored, as existing open-source models still require nearly token-length
decoding steps to ensure performance. To address this, we introduce dParallel,
a simple and effective method that unlocks the inherent parallelism of dLLMs
for fast sampling. We identify that the key bottleneck to parallel decoding
arises from the sequential certainty convergence for masked tokens. Building on
this insight, we introduce the core of our approach: certainty-forcing
distillation, a novel training strategy that distills the model to follow its
original sampling trajectories while enforcing it to achieve high certainty on
masked tokens more rapidly and in parallel. Extensive experiments across
various benchmarks demonstrate that our method can dramatically reduce the
number of decoding steps while maintaining performance. When applied to the
LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on
GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP
benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup
while maintaining accuracy. Our code is available at
https://github.com/czg1225/dParallel