시드 디퓨전: 고속 추론이 가능한 대규모 디퓨전 언어 모델
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
August 4, 2025
저자: Yuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou
cs.AI
초록
우리는 이산 상태 확산(discrete-state diffusion) 기반의 대규모 언어 모델인 Seed Diffusion Preview를 소개하며, 이 모델은 매우 빠른 추론 속도를 제공합니다. 비순차적이고 병렬적인 생성 방식을 통해, 이산 확산 모델은 최근에 입증된 바와 같이(예: Mercury Coder, Gemini Diffusion) 토큰 단위 디코딩의 고유한 지연 시간을 상당히 줄이는 속도 향상을 제공합니다. Seed Diffusion Preview는 H20 GPU에서 2,146 토큰/초의 추론 속도를 달성하면서도 표준 코드 평가 벤치마크 전반에서 경쟁력 있는 성능을 유지하며, 동시대의 Mercury 및 Gemini Diffusion보다 훨씬 빠른 속도를 보여줍니다. 이를 통해 코드 모델의 속도-품질 파레토 프론티어에서 새로운 최첨단 기술을 확립했습니다.
English
We present Seed Diffusion Preview, a large-scale language model based on
discrete-state diffusion, offering remarkably fast inference speed. Thanks to
non-sequential, parallel generation, discrete diffusion models provide a
notable speedup to mitigate the inherent latency of token-by-token decoding, as
demonstrated recently (e.g., Mercury Coder, Gemini Diffusion). Seed Diffusion
Preview achieves an inference speed of 2,146 token/s over H20 GPUs while
maintaining competitive performance across a sweep of standard code evaluation
benchmarks, significantly faster than contemporary Mercury and Gemini
Diffusion, establishing new state of the art on the speed-quality Pareto
frontier for code models.