dParallel: Erlernbare parallele Dekodierung für dLLMs
dParallel: Learnable Parallel Decoding for dLLMs
September 30, 2025
papers.authors: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI
papers.abstract
Diffusion Large Language Models (dLLMs) haben in jüngster Zeit beträchtliche Aufmerksamkeit in der Forschungsgemeinschaft als vielversprechende Alternative zur autoregressiven Generierung erregt, da sie parallele Token-Vorhersage und geringere Inferenzlatenz bieten. Dennoch bleibt ihr Potenzial für paralleles Decodieren weitgehend unerforscht, da bestehende Open-Source-Modelle immer noch nahezu tokenlange Decodierschritte benötigen, um die Leistung zu gewährleisten. Um dies zu adressieren, stellen wir dParallel vor, eine einfache und effektive Methode, die die inhärente Parallelität von dLLMs für schnelles Sampling freisetzt. Wir identifizieren, dass der Hauptengpass für paralleles Decodieren in der sequenziellen Konvergenz der Sicherheit für maskierte Token liegt. Aufbauend auf dieser Erkenntnis führen wir den Kern unseres Ansatzes ein: Certainty-Forcing Distillation, eine neuartige Trainingsstrategie, die das Modell dazu bringt, seine ursprünglichen Sampling-Trajektorien beizubehalten, während es gleichzeitig dazu gezwungen wird, eine hohe Sicherheit für maskierte Token schneller und parallel zu erreichen. Umfangreiche Experimente über verschiedene Benchmarks hinweg zeigen, dass unsere Methode die Anzahl der Decodierschritte dramatisch reduzieren kann, während die Leistung erhalten bleibt. Bei Anwendung auf das LLaDA-8B-Instruct-Modell reduziert dParallel die Decodierschritte von 256 auf 30 bei GSM8K, was eine 8,5-fache Beschleunigung ohne Leistungseinbußen bewirkt. Beim MBPP-Benchmark werden die Decodierschritte von 256 auf 24 reduziert, was eine 10,5-fache Beschleunigung bei gleichbleibender Genauigkeit zur Folge hat. Unser Code ist verfügbar unter https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable
attention within the research community as a promising alternative to
autoregressive generation, offering parallel token prediction and lower
inference latency. Yet, their parallel decoding potential remains largely
underexplored, as existing open-source models still require nearly token-length
decoding steps to ensure performance. To address this, we introduce dParallel,
a simple and effective method that unlocks the inherent parallelism of dLLMs
for fast sampling. We identify that the key bottleneck to parallel decoding
arises from the sequential certainty convergence for masked tokens. Building on
this insight, we introduce the core of our approach: certainty-forcing
distillation, a novel training strategy that distills the model to follow its
original sampling trajectories while enforcing it to achieve high certainty on
masked tokens more rapidly and in parallel. Extensive experiments across
various benchmarks demonstrate that our method can dramatically reduce the
number of decoding steps while maintaining performance. When applied to the
LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on
GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP
benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup
while maintaining accuracy. Our code is available at
https://github.com/czg1225/dParallel