Диффузионные языковые модели могут выполнять вывод быстрее, чем авторегрессивные, с помощью дискретной диффузии Принуждение
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
August 8, 2025
Авторы: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLMs) появились как перспективная альтернатива авторегрессивным (AR) LLM для генерации текста, обладая потенциалом декодирования нескольких токенов за одну итерацию. Однако ни одна из существующих открытых dLLM не достигла превосходной скорости вывода по сравнению с AR LLM аналогичного размера. В данной статье этот барьер преодолевается с помощью простой и эффективной стратегии, названной дискретным диффузионным принуждением (D2F). D2F наделяет dLLM двумя ключевыми возможностями: (1) блочная авторегрессивная генерация для использования кэша ключей и значений (KV cache); (2) предсказание последующих токенов без необходимости завершения предыдущих блоков для параллельного декодирования между блоками. Таким образом, стандартные dLLM преобразуются в гибридную AR-диффузионную парадигму для эффективного вывода. D2F может быть реализован с помощью асимметричного процесса дистилляции на основе предварительно обученных dLLM. Мы также предлагаем алгоритм конвейерного параллельного декодирования, который позволяет достичь компромисса между эффективностью и качеством. Эмпирически dLLM с D2F достигают более чем 2,5-кратного ускорения вывода по сравнению с LLaMA3 и Qwen2.5 на наборе данных GSM8K. По сравнению с базовыми dLLM, такими как LLaDA и Dream, ускорение может превышать 50 раз при сохранении сопоставимого качества вывода. Код доступен по адресу https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs for text generation, with the potential
to decode multiple tokens in a single iteration. However, none of the existing
open-source dLLMs have achieved superior inference speed over AR LLMs of
similar size. This paper breaks this barrier based on a simple and effective
strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key
capabilities: (1) block-wise autoregressive generation to enable KV cache
utilization; (2) prediction of following tokens without requiring completion of
prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs
are refurbished into an AR-diffusion hybrid paradigm for efficient inference.
D2F can be implemented with an asymmetric distillation process based on
pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm,
which enables a trade-off between efficiency and efficacy. Empirically, D2F
dLLMs achieve more than 2.5times inference speed than LLaMA3 and
Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the
acceleration can be more than 50times while maintaining comparable
output quality. The code is available at
https://github.com/zhijie-group/Discrete-Diffusion-Forcing.