ChatPaper.aiChatPaper

이산 확산을 통한 AR 추론보다 빠른 추론이 가능한 Diffusion LLMs 강제 학습

Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

August 8, 2025
저자: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI

초록

확산 기반 대형 언어 모델(Diffusion Large Language Models, dLLMs)은 텍스트 생성 분야에서 자기회귀적(Autoregressive, AR) LLMs의 유망한 대안으로 부상하며, 단일 반복에서 다중 토큰을 디코딩할 수 있는 잠재력을 보여주고 있습니다. 그러나 기존의 오픈소스 dLLMs 중 어느 것도 비슷한 규모의 AR LLMs보다 우수한 추론 속도를 달성하지 못했습니다. 본 논문은 이 장벽을 단순하면서도 효과적인 전략인 이산 확산 강제(Discrete Diffusion Forcing, D2F)를 기반으로 극복합니다. D2F는 dLLMs에 두 가지 핵심 기능을 부여합니다: (1) KV 캐시 활용을 가능하게 하는 블록 단위 자기회귀 생성; (2) 이전 블록의 완료 없이도 후속 토큰을 예측하여 블록 간 병렬 디코딩을 가능하게 합니다. 이를 통해 기본 dLLMs는 효율적인 추론을 위한 AR-확산 하이브리드 패러다임으로 개선됩니다. D2F는 사전 훈련된 dLLMs를 기반으로 한 비대칭적 지식 증류 과정을 통해 구현될 수 있습니다. 또한, 우리는 효율성과 효과성 간의 균형을 가능하게 하는 파이프라인 병렬 디코딩 알고리즘을 제안합니다. 실험적으로, D2F dLLMs는 GSM8K에서 LLaMA3 및 Qwen2.5보다 2.5배 이상 빠른 추론 속도를 달성했습니다. LLaDA 및 Dream과 같은 기본 dLLMs와 비교할 때, 출력 품질을 유지하면서도 50배 이상의 가속화를 달성했습니다. 코드는 https://github.com/zhijie-group/Discrete-Diffusion-Forcing에서 확인할 수 있습니다.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive (AR) LLMs for text generation, with the potential to decode multiple tokens in a single iteration. However, none of the existing open-source dLLMs have achieved superior inference speed over AR LLMs of similar size. This paper breaks this barrier based on a simple and effective strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key capabilities: (1) block-wise autoregressive generation to enable KV cache utilization; (2) prediction of following tokens without requiring completion of prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs are refurbished into an AR-diffusion hybrid paradigm for efficient inference. D2F can be implemented with an asymmetric distillation process based on pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm, which enables a trade-off between efficiency and efficacy. Empirically, D2F dLLMs achieve more than 2.5times inference speed than LLaMA3 and Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the acceleration can be more than 50times while maintaining comparable output quality. The code is available at https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
PDF223August 14, 2025