I modelli linguistici basati su diffusione possono eseguire inferenza più velocemente di quelli autoregressivi tramite diffusione discreta Forzatura
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
August 8, 2025
Autori: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sono emersi come una promettente alternativa ai modelli linguistici autoregressivi (AR) per la generazione di testo, con il potenziale di decodificare più token in una singola iterazione. Tuttavia, nessuno degli attuali dLLM open-source ha raggiunto una velocità di inferenza superiore rispetto ai modelli AR di dimensioni simili. Questo articolo supera questa barriera basandosi su una strategia semplice ed efficace denominata discrete diffusion forcing (D2F). D2F fornisce ai dLLM due capacità chiave: (1) generazione autoregressiva a blocchi per consentire l'utilizzo della cache KV; (2) previsione dei token successivi senza richiedere il completamento dei blocchi precedenti per la decodifica parallela inter-blocchi. In questo modo, i dLLM tradizionali vengono trasformati in un paradigma ibrido AR-diffusione per un'inferenza efficiente. D2F può essere implementato con un processo di distillazione asimmetrica basato su dLLM pre-addestrati. Proponiamo inoltre un algoritmo di decodifica parallela in pipeline, che consente un compromesso tra efficienza ed efficacia. Empiricamente, i dLLM con D2F raggiungono una velocità di inferenza superiore a 2,5 volte rispetto a LLaMA3 e Qwen2.5 su GSM8K. Rispetto ai dLLM tradizionali come LLaDA e Dream, l'accelerazione può superare le 50 volte mantenendo una qualità di output comparabile. Il codice è disponibile all'indirizzo https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs for text generation, with the potential
to decode multiple tokens in a single iteration. However, none of the existing
open-source dLLMs have achieved superior inference speed over AR LLMs of
similar size. This paper breaks this barrier based on a simple and effective
strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key
capabilities: (1) block-wise autoregressive generation to enable KV cache
utilization; (2) prediction of following tokens without requiring completion of
prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs
are refurbished into an AR-diffusion hybrid paradigm for efficient inference.
D2F can be implemented with an asymmetric distillation process based on
pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm,
which enables a trade-off between efficiency and efficacy. Empirically, D2F
dLLMs achieve more than 2.5times inference speed than LLaMA3 and
Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the
acceleration can be more than 50times while maintaining comparable
output quality. The code is available at
https://github.com/zhijie-group/Discrete-Diffusion-Forcing.