dParallel: Erlernbare parallele Dekodierung für dLLMs

papers.abstract

Diffusion Large Language Models (dLLMs) haben in jüngster Zeit beträchtliche Aufmerksamkeit in der Forschungsgemeinschaft als vielversprechende Alternative zur autoregressiven Generierung erregt, da sie parallele Token-Vorhersage und geringere Inferenzlatenz bieten. Dennoch bleibt ihr Potenzial für paralleles Decodieren weitgehend unerforscht, da bestehende Open-Source-Modelle immer noch nahezu tokenlange Decodierschritte benötigen, um die Leistung zu gewährleisten. Um dies zu adressieren, stellen wir dParallel vor, eine einfache und effektive Methode, die die inhärente Parallelität von dLLMs für schnelles Sampling freisetzt. Wir identifizieren, dass der Hauptengpass für paralleles Decodieren in der sequenziellen Konvergenz der Sicherheit für maskierte Token liegt. Aufbauend auf dieser Erkenntnis führen wir den Kern unseres Ansatzes ein: Certainty-Forcing Distillation, eine neuartige Trainingsstrategie, die das Modell dazu bringt, seine ursprünglichen Sampling-Trajektorien beizubehalten, während es gleichzeitig dazu gezwungen wird, eine hohe Sicherheit für maskierte Token schneller und parallel zu erreichen. Umfangreiche Experimente über verschiedene Benchmarks hinweg zeigen, dass unsere Methode die Anzahl der Decodierschritte dramatisch reduzieren kann, während die Leistung erhalten bleibt. Bei Anwendung auf das LLaDA-8B-Instruct-Modell reduziert dParallel die Decodierschritte von 256 auf 30 bei GSM8K, was eine 8,5-fache Beschleunigung ohne Leistungseinbußen bewirkt. Beim MBPP-Benchmark werden die Decodierschritte von 256 auf 24 reduziert, was eine 10,5-fache Beschleunigung bei gleichbleibender Genauigkeit zur Folge hat. Unser Code ist verfügbar unter https://github.com/czg1225/dParallel.

English

Diffusion large language models (dLLMs) have recently drawn considerable attention within the research community as a promising alternative to autoregressive generation, offering parallel token prediction and lower inference latency. Yet, their parallel decoding potential remains largely underexplored, as existing open-source models still require nearly token-length decoding steps to ensure performance. To address this, we introduce dParallel, a simple and effective method that unlocks the inherent parallelism of dLLMs for fast sampling. We identify that the key bottleneck to parallel decoding arises from the sequential certainty convergence for masked tokens. Building on this insight, we introduce the core of our approach: certainty-forcing distillation, a novel training strategy that distills the model to follow its original sampling trajectories while enforcing it to achieve high certainty on masked tokens more rapidly and in parallel. Extensive experiments across various benchmarks demonstrate that our method can dramatically reduce the number of decoding steps while maintaining performance. When applied to the LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup while maintaining accuracy. Our code is available at https://github.com/czg1225/dParallel

dParallel: Erlernbare parallele Dekodierung für dLLMs

dParallel: Learnable Parallel Decoding for dLLMs

papers.abstract

Support