dParallel: Leerbare Parallelle Decodering voor dLLMs

Samenvatting

Diffusion grote taalmodellen (dLLMs) hebben recentelijk aanzienlijke aandacht getrokken binnen de onderzoeksgemeenschap als een veelbelovend alternatief voor autoregressieve generatie, waarbij ze parallelle tokenvoorspelling en lagere inferentielatentie bieden. Toch blijft hun potentieel voor parallelle decodering grotendeels onbenut, aangezien bestaande open-source modellen nog steeds bijna token-lengte decoderingstappen vereisen om de prestaties te garanderen. Om dit aan te pakken, introduceren we dParallel, een eenvoudige en effectieve methode die het inherente parallellisme van dLLMs ontsluit voor snelle sampling. We identificeren dat de belangrijkste bottleneck voor parallelle decodering voortkomt uit de sequentiële zekerheidsconvergentie voor gemaskeerde tokens. Op basis van dit inzicht introduceren we de kern van onze aanpak: certainty-forcing distillatie, een nieuwe trainingsstrategie die het model distilleert om zijn oorspronkelijke samplingtrajecten te volgen, terwijl het wordt afgedwongen om sneller en parallel hoge zekerheid te bereiken voor gemaskeerde tokens. Uitgebreide experimenten over verschillende benchmarks tonen aan dat onze methode het aantal decoderingstappen aanzienlijk kan verminderen terwijl de prestaties behouden blijven. Wanneer toegepast op het LLaDA-8B-Instruct model, reduceert dParallel de decoderingstappen van 256 naar 30 op GSM8K, wat een 8,5x versnelling oplevert zonder prestatieverlies. Op de MBPP-benchmark worden de decoderingstappen teruggebracht van 256 naar 24, wat resulteert in een 10,5x versnelling terwijl de nauwkeurigheid behouden blijft. Onze code is beschikbaar op https://github.com/czg1225/dParallel.

English

Diffusion large language models (dLLMs) have recently drawn considerable attention within the research community as a promising alternative to autoregressive generation, offering parallel token prediction and lower inference latency. Yet, their parallel decoding potential remains largely underexplored, as existing open-source models still require nearly token-length decoding steps to ensure performance. To address this, we introduce dParallel, a simple and effective method that unlocks the inherent parallelism of dLLMs for fast sampling. We identify that the key bottleneck to parallel decoding arises from the sequential certainty convergence for masked tokens. Building on this insight, we introduce the core of our approach: certainty-forcing distillation, a novel training strategy that distills the model to follow its original sampling trajectories while enforcing it to achieve high certainty on masked tokens more rapidly and in parallel. Extensive experiments across various benchmarks demonstrate that our method can dramatically reduce the number of decoding steps while maintaining performance. When applied to the LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup while maintaining accuracy. Our code is available at https://github.com/czg1225/dParallel

dParallel: Leerbare Parallelle Decodering voor dLLMs

dParallel: Learnable Parallel Decoding for dLLMs

Samenvatting

Support