dInfer: 확산 언어 모델을 위한 효율적인 추론 프레임워크
dInfer: An Efficient Inference Framework for Diffusion Language Models
October 9, 2025
저자: Yuxin Ma, Lun Du, Lanning Wei, Kun Chen, Qian Xu, Kangyu Wang, Guofeng Feng, Guoshan Lu, Lin Liu, Xiaojing Qi, Xinyuan Zhang, Zhen Tao, Haibo Feng, Ziyun Jiang, Ying Xu, Zenan Huang, Yihong Zhuang, Haokai Xu, Jiaqi Hu, Zhenzhong Lan, Junbo Zhao, Jianguo Li, Da Zheng
cs.AI
초록
디퓨전 기반 대형 언어 모델(dLLM)은 자동회귀(AR) LLM에 대한 유망한 대안으로 부상하며, 노이즈 제거 기반 생성을 통해 내재적 병렬성을 가능하게 합니다. 점점 더 많은 오픈소스 dLLM 모델이 등장하고 있지만, 표준화되고 효율적인 추론 프레임워크의 부재로 인해 광범위한 채택은 여전히 제한적입니다. 우리는 dLLM 추론을 위한 효율적이고 확장 가능한 프레임워크인 dInfer를 소개합니다. dInfer는 추론 파이프라인을 모델, 디퓨전 반복 관리자, 디코딩 전략, KV 캐시 관리자라는 네 가지 모듈식 구성 요소로 분해하고, 각 구성 요소에 대한 새로운 알고리즘과 시스템 수준의 최적화를 통합합니다. 이러한 알고리즘 혁신과 시스템 개선의 조합을 통해 dInfer는 LLaDA-MoE에서 출력 품질을 저하시키지 않으면서도 상당한 효율성 향상을 달성합니다. 배치 크기 1에서 HumanEval에서 초당 1,100개 이상의 토큰을 처리하며, 8개의 H800 GPU에서 6개 벤치마크에 걸쳐 평균 초당 800개 이상의 토큰을 처리합니다. 기존 시스템과 비교하여, dInfer는 Fast-dLLM 대비 10배의 속도 향상을 제공하면서도 유사한 모델 성능을 유지합니다. 최신 vLLM 추론 엔진으로 최적화된 AR 모델인 QWen2.5-3B(활성화 매개변수 수와 성능이 유사한)와 비교해도 dInfer는 여전히 2-3배의 속도 향상을 제공합니다. dInfer의 구현은 https://github.com/inclusionAI/dInfer에서 오픈소스로 제공됩니다.
English
Diffusion-based large language models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs, leveraging denoising-based generation
to enable inherent parallelism. Even more and more open-sourced dLLM models
emerge, yet their widespread adoption remains constrained by the lack of a
standardized and efficient inference framework. We present dInfer, an efficient
and extensible framework for dLLM inference. dInfer decomposes the inference
pipeline into four modular components--model, diffusion iteration manager,
decoding strategy, and KV-cache manager--and integrates novel algorithms for
each component alongside system-level optimizations. Through this combination
of algorithmic innovations and system enhancements, dInfer achieves substantial
efficiency gains without compromising output quality on LLaDA-MoE. At batch
size 1, it surpasses 1,100 tokens per second on HumanEval and averages over 800
tokens per second across six benchmarks on 8times H800 GPUs. Compared to
prior systems, dInfer delivers a 10times speedup over Fast-dLLM while
maintaining similar model performance. Even compared to the AR model (with a
comparable number of activation parameters and performance) QWen2.5-3B, which
is highly optimized with the latest vLLM inference engine, dInfer still
delivers a 2-3times speedup. The implementation of dInfer is open-sourced
at https://github.com/inclusionAI/dInfer.