ChatPaper.aiChatPaper

dInfer: 拡散言語モデルのための効率的な推論フレームワーク

dInfer: An Efficient Inference Framework for Diffusion Language Models

October 9, 2025
著者: Yuxin Ma, Lun Du, Lanning Wei, Kun Chen, Qian Xu, Kangyu Wang, Guofeng Feng, Guoshan Lu, Lin Liu, Xiaojing Qi, Xinyuan Zhang, Zhen Tao, Haibo Feng, Ziyun Jiang, Ying Xu, Zenan Huang, Yihong Zhuang, Haokai Xu, Jiaqi Hu, Zhenzhong Lan, Junbo Zhao, Jianguo Li, Da Zheng
cs.AI

要旨

拡散ベースの大規模言語モデル(dLLM)は、ノイズ除去ベースの生成を活用して内在的な並列性を実現し、自己回帰型(AR)LLMの有望な代替として登場した。さらに、オープンソースのdLLMモデルが増え続けているが、標準化された効率的な推論フレームワークの欠如により、その広範な採用は制約されている。本論文では、dLLM推論のための効率的で拡張可能なフレームワークであるdInferを提案する。dInferは、推論パイプラインをモデル、拡散反復マネージャー、デコード戦略、KVキャッシュマネージャーの4つのモジュールコンポーネントに分解し、各コンポーネントに対する新規アルゴリズムとシステムレベルの最適化を統合する。このアルゴリズム革新とシステム強化の組み合わせにより、dInferはLLaDA-MoEにおいて出力品質を損なうことなく、大幅な効率向上を実現する。バッチサイズ1では、HumanEvalで1,100トークン/秒を超え、8台のH800 GPU上で6つのベンチマークにおいて平均800トークン/秒以上を達成する。既存のシステムと比較して、dInferはFast-dLLMに対して10倍の高速化を実現しつつ、同様のモデル性能を維持する。さらに、最新のvLLM推論エンジンで高度に最適化されたARモデルQWen2.5-3B(同程度の活性化パラメータ数と性能を持つ)と比較しても、dInferは2~3倍の高速化を提供する。dInferの実装はhttps://github.com/inclusionAI/dInferでオープンソースとして公開されている。
English
Diffusion-based large language models (dLLMs) have emerged as a promising alternative to autoregressive (AR) LLMs, leveraging denoising-based generation to enable inherent parallelism. Even more and more open-sourced dLLM models emerge, yet their widespread adoption remains constrained by the lack of a standardized and efficient inference framework. We present dInfer, an efficient and extensible framework for dLLM inference. dInfer decomposes the inference pipeline into four modular components--model, diffusion iteration manager, decoding strategy, and KV-cache manager--and integrates novel algorithms for each component alongside system-level optimizations. Through this combination of algorithmic innovations and system enhancements, dInfer achieves substantial efficiency gains without compromising output quality on LLaDA-MoE. At batch size 1, it surpasses 1,100 tokens per second on HumanEval and averages over 800 tokens per second across six benchmarks on 8times H800 GPUs. Compared to prior systems, dInfer delivers a 10times speedup over Fast-dLLM while maintaining similar model performance. Even compared to the AR model (with a comparable number of activation parameters and performance) QWen2.5-3B, which is highly optimized with the latest vLLM inference engine, dInfer still delivers a 2-3times speedup. The implementation of dInfer is open-sourced at https://github.com/inclusionAI/dInfer.
PDF02October 15, 2025