Diffusions-LLMs können schneller-als-AR-Inferenz durch diskrete Diffusion erreichen Forcing
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
August 8, 2025
papers.authors: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI
papers.abstract
Diffusion Large Language Models (dLLMs) haben sich als vielversprechende Alternative zu autoregressiven (AR) LLMs für die Textgenerierung erwiesen, mit dem Potenzial, mehrere Tokens in einer einzigen Iteration zu dekodieren. Allerdings hat keines der bestehenden Open-Source-dLLMs eine überlegene Inferenzgeschwindigkeit gegenüber AR LLMs ähnlicher Größe erreicht. Dieses Papier durchbricht diese Barriere basierend auf einer einfachen und effektiven Strategie namens Discrete Diffusion Forcing (D2F). D2F stattet dLLMs mit zwei Schlüsselfähigkeiten aus: (1) blockweise autoregressive Generierung, um die Nutzung des KV-Caches zu ermöglichen; (2) Vorhersage nachfolgender Tokens, ohne die Vervollständigung vorheriger Blöcke für die interblockparallele Dekodierung zu erfordern. Auf diese Weise werden die herkömmlichen dLLMs in ein AR-Diffusion-Hybridparadigma für effiziente Inferenz umgewandelt. D2F kann mit einem asymmetrischen Distillationsprozess auf Basis vortrainierter dLLMs implementiert werden. Wir schlagen weiterhin einen pipelined parallelen Dekodierungsalgorithmus vor, der einen Kompromiss zwischen Effizienz und Effektivität ermöglicht. Empirisch erreichen D2F-dLLMs eine mehr als 2,5-fache Inferenzgeschwindigkeit im Vergleich zu LLaMA3 und Qwen2.5 auf GSM8K. Im Vergleich zu herkömmlichen dLLMs wie LLaDA und Dream kann die Beschleunigung mehr als 50-fach betragen, während die Ausgabequalität vergleichbar bleibt. Der Code ist verfügbar unter https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs for text generation, with the potential
to decode multiple tokens in a single iteration. However, none of the existing
open-source dLLMs have achieved superior inference speed over AR LLMs of
similar size. This paper breaks this barrier based on a simple and effective
strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key
capabilities: (1) block-wise autoregressive generation to enable KV cache
utilization; (2) prediction of following tokens without requiring completion of
prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs
are refurbished into an AR-diffusion hybrid paradigm for efficient inference.
D2F can be implemented with an asymmetric distillation process based on
pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm,
which enables a trade-off between efficiency and efficacy. Empirically, D2F
dLLMs achieve more than 2.5times inference speed than LLaMA3 and
Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the
acceleration can be more than 50times while maintaining comparable
output quality. The code is available at
https://github.com/zhijie-group/Discrete-Diffusion-Forcing.