dParallel: Decodifica Parallela Apprendibile per dLLM

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno recentemente attirato notevole attenzione all'interno della comunità di ricerca come una promettente alternativa alla generazione autoregressiva, offrendo previsioni parallele di token e una minore latenza di inferenza. Tuttavia, il loro potenziale di decodifica parallela rimane in gran parte inesplorato, poiché i modelli open-source esistenti richiedono ancora un numero di passaggi di decodifica quasi pari alla lunghezza del token per garantire le prestazioni. Per affrontare questo problema, introduciamo dParallel, un metodo semplice ed efficace che sblocca il parallelismo intrinseco dei dLLM per un campionamento rapido. Identifichiamo che il principale collo di bottiglia per la decodifica parallela deriva dalla convergenza sequenziale della certezza per i token mascherati. Basandoci su questa intuizione, introduciamo il cuore del nostro approccio: la distillazione forzata della certezza, una nuova strategia di addestramento che distilla il modello per seguire le sue traiettorie di campionamento originali mentre lo obbliga a raggiungere un'elevata certezza sui token mascherati più rapidamente e in parallelo. Esperimenti estesi su vari benchmark dimostrano che il nostro metodo può ridurre drasticamente il numero di passaggi di decodifica mantenendo le prestazioni. Quando applicato al modello LLaDA-8B-Instruct, dParallel riduce i passaggi di decodifica da 256 a 30 su GSM8K, ottenendo un'accelerazione di 8,5x senza degradazione delle prestazioni. Sul benchmark MBPP, riduce i passaggi di decodifica da 256 a 24, ottenendo un'accelerazione di 10,5x mantenendo l'accuratezza. Il nostro codice è disponibile all'indirizzo https://github.com/czg1225/dParallel.

English

Diffusion large language models (dLLMs) have recently drawn considerable attention within the research community as a promising alternative to autoregressive generation, offering parallel token prediction and lower inference latency. Yet, their parallel decoding potential remains largely underexplored, as existing open-source models still require nearly token-length decoding steps to ensure performance. To address this, we introduce dParallel, a simple and effective method that unlocks the inherent parallelism of dLLMs for fast sampling. We identify that the key bottleneck to parallel decoding arises from the sequential certainty convergence for masked tokens. Building on this insight, we introduce the core of our approach: certainty-forcing distillation, a novel training strategy that distills the model to follow its original sampling trajectories while enforcing it to achieve high certainty on masked tokens more rapidly and in parallel. Extensive experiments across various benchmarks demonstrate that our method can dramatically reduce the number of decoding steps while maintaining performance. When applied to the LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup while maintaining accuracy. Our code is available at https://github.com/czg1225/dParallel

dParallel: Decodifica Parallela Apprendibile per dLLM

dParallel: Learnable Parallel Decoding for dLLMs

Abstract

Support