ChatPaper.aiChatPaper

シード拡散:高速推論を実現する大規模拡散言語モデル

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

August 4, 2025
著者: Yuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou
cs.AI

要旨

本論文では、離散状態拡散に基づく大規模言語モデル「Seed Diffusion Preview」を提案する。このモデルは、非常に高速な推論速度を実現している。非逐次的で並列的な生成により、離散拡散モデルは、トークンごとのデコードに伴う固有の遅延を軽減する顕著な高速化を提供する。最近の研究(例:Mercury Coder、Gemini Diffusion)で示されている通りである。Seed Diffusion Previewは、H20 GPU上で2,146トークン/秒の推論速度を達成し、標準的なコード評価ベンチマークにおいて競争力のある性能を維持している。これは、最新のMercuryおよびGemini Diffusionを大幅に上回る速度であり、コードモデルにおける速度と品質のパレートフロンティアにおいて新たな最先端を確立した。
English
We present Seed Diffusion Preview, a large-scale language model based on discrete-state diffusion, offering remarkably fast inference speed. Thanks to non-sequential, parallel generation, discrete diffusion models provide a notable speedup to mitigate the inherent latency of token-by-token decoding, as demonstrated recently (e.g., Mercury Coder, Gemini Diffusion). Seed Diffusion Preview achieves an inference speed of 2,146 token/s over H20 GPUs while maintaining competitive performance across a sweep of standard code evaluation benchmarks, significantly faster than contemporary Mercury and Gemini Diffusion, establishing new state of the art on the speed-quality Pareto frontier for code models.
PDF9313August 6, 2025