Diffusie-LLM's kunnen sneller-dan-AR inferentie uitvoeren via discrete diffusie Forceren
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
August 8, 2025
Auteurs: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI
Samenvatting
Diffusion Large Language Models (dLLMs) zijn naar voren gekomen als een veelbelovend alternatief voor autoregressieve (AR) LLMs voor tekstgeneratie, met de potentie om meerdere tokens in één iteratie te decoderen. Echter, geen van de bestaande open-source dLLMs heeft een superieure inferentiesnelheid bereikt in vergelijking met AR LLMs van vergelijkbare grootte. Dit artikel doorbreekt deze barrière op basis van een eenvoudige en effectieve strategie genaamd discrete diffusion forcing (D2F). D2F voorziet dLLMs van twee belangrijke mogelijkheden: (1) bloksgewijze autoregressieve generatie om KV-cache-gebruik mogelijk te maken; (2) voorspelling van volgende tokens zonder dat de voltooiing van voorgaande blokken vereist is voor inter-blok parallelle decodering. Op deze manier worden de standaard dLLMs omgevormd tot een AR-diffusie hybride paradigma voor efficiënte inferentie. D2F kan worden geïmplementeerd met een asymmetrisch distillatieproces gebaseerd op vooraf getrainde dLLMs. We stellen verder een gepipelineerd parallel decodering-algoritme voor, dat een afweging mogelijk maakt tussen efficiëntie en effectiviteit. Empirisch gezien behalen D2F dLLMs meer dan 2,5 keer de inferentiesnelheid van LLaMA3 en Qwen2.5 op GSM8K. In vergelijking met standaard dLLMs zoals LLaDA en Dream, kan de versnelling meer dan 50 keer zijn terwijl de uitvoerkwaliteit vergelijkbaar blijft. De code is beschikbaar op https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs for text generation, with the potential
to decode multiple tokens in a single iteration. However, none of the existing
open-source dLLMs have achieved superior inference speed over AR LLMs of
similar size. This paper breaks this barrier based on a simple and effective
strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key
capabilities: (1) block-wise autoregressive generation to enable KV cache
utilization; (2) prediction of following tokens without requiring completion of
prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs
are refurbished into an AR-diffusion hybrid paradigm for efficient inference.
D2F can be implemented with an asymmetric distillation process based on
pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm,
which enables a trade-off between efficiency and efficacy. Empirically, D2F
dLLMs achieve more than 2.5times inference speed than LLaMA3 and
Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the
acceleration can be more than 50times while maintaining comparable
output quality. The code is available at
https://github.com/zhijie-group/Discrete-Diffusion-Forcing.