dInfer: 拡散言語モデルのための効率的な推論フレームワーク
dInfer: An Efficient Inference Framework for Diffusion Language Models
October 9, 2025
著者: Yuxin Ma, Lun Du, Lanning Wei, Kun Chen, Qian Xu, Kangyu Wang, Guofeng Feng, Guoshan Lu, Lin Liu, Xiaojing Qi, Xinyuan Zhang, Zhen Tao, Haibo Feng, Ziyun Jiang, Ying Xu, Zenan Huang, Yihong Zhuang, Haokai Xu, Jiaqi Hu, Zhenzhong Lan, Junbo Zhao, Jianguo Li, Da Zheng
cs.AI
要旨
拡散ベースの大規模言語モデル(dLLM)は、ノイズ除去ベースの生成を活用して内在的な並列性を実現し、自己回帰型(AR)LLMの有望な代替として登場した。さらに、オープンソースのdLLMモデルが増え続けているが、標準化された効率的な推論フレームワークの欠如により、その広範な採用は制約されている。本論文では、dLLM推論のための効率的で拡張可能なフレームワークであるdInferを提案する。dInferは、推論パイプラインをモデル、拡散反復マネージャー、デコード戦略、KVキャッシュマネージャーの4つのモジュールコンポーネントに分解し、各コンポーネントに対する新規アルゴリズムとシステムレベルの最適化を統合する。このアルゴリズム革新とシステム強化の組み合わせにより、dInferはLLaDA-MoEにおいて出力品質を損なうことなく、大幅な効率向上を実現する。バッチサイズ1では、HumanEvalで1,100トークン/秒を超え、8台のH800 GPU上で6つのベンチマークにおいて平均800トークン/秒以上を達成する。既存のシステムと比較して、dInferはFast-dLLMに対して10倍の高速化を実現しつつ、同様のモデル性能を維持する。さらに、最新のvLLM推論エンジンで高度に最適化されたARモデルQWen2.5-3B(同程度の活性化パラメータ数と性能を持つ)と比較しても、dInferは2~3倍の高速化を提供する。dInferの実装はhttps://github.com/inclusionAI/dInferでオープンソースとして公開されている。
English
Diffusion-based large language models (dLLMs) have emerged as a promising
alternative to autoregressive (AR) LLMs, leveraging denoising-based generation
to enable inherent parallelism. Even more and more open-sourced dLLM models
emerge, yet their widespread adoption remains constrained by the lack of a
standardized and efficient inference framework. We present dInfer, an efficient
and extensible framework for dLLM inference. dInfer decomposes the inference
pipeline into four modular components--model, diffusion iteration manager,
decoding strategy, and KV-cache manager--and integrates novel algorithms for
each component alongside system-level optimizations. Through this combination
of algorithmic innovations and system enhancements, dInfer achieves substantial
efficiency gains without compromising output quality on LLaDA-MoE. At batch
size 1, it surpasses 1,100 tokens per second on HumanEval and averages over 800
tokens per second across six benchmarks on 8times H800 GPUs. Compared to
prior systems, dInfer delivers a 10times speedup over Fast-dLLM while
maintaining similar model performance. Even compared to the AR model (with a
comparable number of activation parameters and performance) QWen2.5-3B, which
is highly optimized with the latest vLLM inference engine, dInfer still
delivers a 2-3times speedup. The implementation of dInfer is open-sourced
at https://github.com/inclusionAI/dInfer.