Seed Diffusion: Um Modelo de Linguagem de Difusão em Grande Escala com Inferência de Alta Velocidade
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
August 4, 2025
Autores: Yuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou
cs.AI
Resumo
Apresentamos o Seed Diffusion Preview, um modelo de linguagem em larga escala baseado em difusão de estados discretos, oferecendo uma velocidade de inferência notavelmente rápida. Graças à geração não sequencial e paralela, os modelos de difusão discreta proporcionam uma aceleração significativa para mitigar a latência inerente da decodificação token por token, conforme demonstrado recentemente (por exemplo, Mercury Coder, Gemini Diffusion). O Seed Diffusion Preview alcança uma velocidade de inferência de 2.146 tokens/s em GPUs H20, mantendo um desempenho competitivo em uma variedade de benchmarks padrão de avaliação de código, significativamente mais rápido que os modelos contemporâneos Mercury e Gemini Diffusion, estabelecendo um novo estado da arte na fronteira de Pareto velocidade-qualidade para modelos de código.
English
We present Seed Diffusion Preview, a large-scale language model based on
discrete-state diffusion, offering remarkably fast inference speed. Thanks to
non-sequential, parallel generation, discrete diffusion models provide a
notable speedup to mitigate the inherent latency of token-by-token decoding, as
demonstrated recently (e.g., Mercury Coder, Gemini Diffusion). Seed Diffusion
Preview achieves an inference speed of 2,146 token/s over H20 GPUs while
maintaining competitive performance across a sweep of standard code evaluation
benchmarks, significantly faster than contemporary Mercury and Gemini
Diffusion, establishing new state of the art on the speed-quality Pareto
frontier for code models.