dParallel: Decodifica Parallela Apprendibile per dLLM
dParallel: Learnable Parallel Decoding for dLLMs
September 30, 2025
Autori: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno recentemente attirato notevole attenzione all'interno della comunità di ricerca come una promettente alternativa alla generazione autoregressiva, offrendo previsioni parallele di token e una minore latenza di inferenza. Tuttavia, il loro potenziale di decodifica parallela rimane in gran parte inesplorato, poiché i modelli open-source esistenti richiedono ancora un numero di passaggi di decodifica quasi pari alla lunghezza del token per garantire le prestazioni. Per affrontare questo problema, introduciamo dParallel, un metodo semplice ed efficace che sblocca il parallelismo intrinseco dei dLLM per un campionamento rapido. Identifichiamo che il principale collo di bottiglia per la decodifica parallela deriva dalla convergenza sequenziale della certezza per i token mascherati. Basandoci su questa intuizione, introduciamo il cuore del nostro approccio: la distillazione forzata della certezza, una nuova strategia di addestramento che distilla il modello per seguire le sue traiettorie di campionamento originali mentre lo obbliga a raggiungere un'elevata certezza sui token mascherati più rapidamente e in parallelo. Esperimenti estesi su vari benchmark dimostrano che il nostro metodo può ridurre drasticamente il numero di passaggi di decodifica mantenendo le prestazioni. Quando applicato al modello LLaDA-8B-Instruct, dParallel riduce i passaggi di decodifica da 256 a 30 su GSM8K, ottenendo un'accelerazione di 8,5x senza degradazione delle prestazioni. Sul benchmark MBPP, riduce i passaggi di decodifica da 256 a 24, ottenendo un'accelerazione di 10,5x mantenendo l'accuratezza. Il nostro codice è disponibile all'indirizzo https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable
attention within the research community as a promising alternative to
autoregressive generation, offering parallel token prediction and lower
inference latency. Yet, their parallel decoding potential remains largely
underexplored, as existing open-source models still require nearly token-length
decoding steps to ensure performance. To address this, we introduce dParallel,
a simple and effective method that unlocks the inherent parallelism of dLLMs
for fast sampling. We identify that the key bottleneck to parallel decoding
arises from the sequential certainty convergence for masked tokens. Building on
this insight, we introduce the core of our approach: certainty-forcing
distillation, a novel training strategy that distills the model to follow its
original sampling trajectories while enforcing it to achieve high certainty on
masked tokens more rapidly and in parallel. Extensive experiments across
various benchmarks demonstrate that our method can dramatically reduce the
number of decoding steps while maintaining performance. When applied to the
LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on
GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP
benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup
while maintaining accuracy. Our code is available at
https://github.com/czg1225/dParallel