Les LLMs à diffusion peuvent effectuer des inférences plus rapides que les modèles AR grâce à la diffusion discrète Forçage
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
August 8, 2025
papers.authors: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI
papers.abstract
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) sont apparus comme une alternative prometteuse aux modèles de langage autoregressifs (AR) pour la génération de texte, avec la capacité potentielle de décoder plusieurs tokens en une seule itération. Cependant, aucun des dLLMs open-source existants n'a atteint une vitesse d'inférence supérieure à celle des modèles AR de taille similaire. Cet article surmonte cet obstacle grâce à une stratégie simple et efficace appelée **discrete diffusion forcing** (D2F). D2F dote les dLLMs de deux capacités clés : (1) la génération autoregressive par blocs pour permettre l'utilisation du cache KV ; (2) la prédiction des tokens suivants sans nécessiter la complétion des blocs précédents, permettant un décodage parallèle inter-blocs. Ainsi, les dLLMs classiques sont transformés en un paradigme hybride AR-diffusion pour une inférence efficace. D2F peut être mis en œuvre via un processus de distillation asymétrique basé sur des dLLMs pré-entraînés. Nous proposons également un algorithme de décodage parallèle en pipeline, qui permet un compromis entre efficacité et performance. Empiriquement, les dLLMs avec D2F atteignent une vitesse d'inférence plus de 2,5 fois supérieure à celle de LLaMA3 et Qwen2.5 sur GSM8K. Par rapport aux dLLMs classiques comme LLaDA et Dream, l'accélération peut dépasser 50 fois tout en maintenant une qualité de sortie comparable. Le code est disponible à l'adresse suivante : https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs for text generation, with the potential
to decode multiple tokens in a single iteration. However, none of the existing
open-source dLLMs have achieved superior inference speed over AR LLMs of
similar size. This paper breaks this barrier based on a simple and effective
strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key
capabilities: (1) block-wise autoregressive generation to enable KV cache
utilization; (2) prediction of following tokens without requiring completion of
prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs
are refurbished into an AR-diffusion hybrid paradigm for efficient inference.
D2F can be implemented with an asymmetric distillation process based on
pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm,
which enables a trade-off between efficiency and efficacy. Empirically, D2F
dLLMs achieve more than 2.5times inference speed than LLaMA3 and
Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the
acceleration can be more than 50times while maintaining comparable
output quality. The code is available at
https://github.com/zhijie-group/Discrete-Diffusion-Forcing.