Modelos de Linguagem de Difusão Podem Realizar Inferência Mais Rápida que AR via Difusão Discreta Forçando
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
August 8, 2025
Autores: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala baseados em Difusão (dLLMs) surgiram como uma alternativa promissora aos LLMs autoregressivos (AR) para geração de texto, com o potencial de decodificar múltiplos tokens em uma única iteração. No entanto, nenhum dos dLLMs de código aberto existentes alcançou uma velocidade de inferência superior em comparação com LLMs AR de tamanho similar. Este artigo supera essa barreira com base em uma estratégia simples e eficaz chamada de forçamento de difusão discreta (D2F). O D2F equipa os dLLMs com duas capacidades principais: (1) geração autoregressiva em blocos para permitir a utilização do cache KV; (2) previsão de tokens subsequentes sem a necessidade de completar blocos anteriores para decodificação paralela entre blocos. Dessa forma, os dLLMs convencionais são reformulados em um paradigma híbrido AR-difusão para inferência eficiente. O D2F pode ser implementado com um processo de destilação assimétrica baseado em dLLMs pré-treinados. Propomos ainda um algoritmo de decodificação paralela em pipeline, que permite um equilíbrio entre eficiência e eficácia. Empiricamente, os dLLMs com D2F alcançam uma velocidade de inferência mais de 2,5 vezes maior que a do LLaMA3 e do Qwen2.5 no GSM8K. Em comparação com dLLMs convencionais como LLaDA e Dream, a aceleração pode ser superior a 50 vezes, mantendo uma qualidade de saída comparável. O código está disponível em https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs for text generation, with the potential
to decode multiple tokens in a single iteration. However, none of the existing
open-source dLLMs have achieved superior inference speed over AR LLMs of
similar size. This paper breaks this barrier based on a simple and effective
strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key
capabilities: (1) block-wise autoregressive generation to enable KV cache
utilization; (2) prediction of following tokens without requiring completion of
prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs
are refurbished into an AR-diffusion hybrid paradigm for efficient inference.
D2F can be implemented with an asymmetric distillation process based on
pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm,
which enables a trade-off between efficiency and efficacy. Empirically, D2F
dLLMs achieve more than 2.5times inference speed than LLaMA3 and
Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the
acceleration can be more than 50times while maintaining comparable
output quality. The code is available at
https://github.com/zhijie-group/Discrete-Diffusion-Forcing.