ChatPaper.aiChatPaper

LLaDA2.0: Het Opschalen van Diffusie-taalmodellen tot 100B

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

December 10, 2025
Auteurs: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI

Samenvatting

Dit artikel presenteert LLaDA2.0 – een tupel van discrete diffusie large language models (dLLM) die oplopen tot 100B totale parameters door systematische conversie van auto-regressieve (AR) modellen – waarmee een nieuw paradigma wordt gevestigd voor inzet op frontierschaal. In plaats van kostbare training vanaf nul, handhaaft LLaDA2.0 de principes van kennisoverdracht, progressieve aanpassing en efficiëntiebewust ontwerp, en zet naadloos een vooraf getraind AR-model om in een dLLM met een nieuwe 3-fasen trainingsschema op basis van WSD op blokniveau: progressieve toename van blokgrootte in blokdiffusie (opwarming), grootschalige diffusie van volledige sequenties (stabiel) en terugkeren naar diffusie met compacte blokgroottes (afbouw). Samen met post-training alignment met SFT en DPO verkrijgen we LLaDA2.0-mini (16B) en LLaDA2.0-flash (100B), twee instruction-tuned Mixture-of-Experts (MoE) varianten geoptimaliseerd voor praktische inzet. Door de voordelen van parallel decoderen te behouden, leveren deze modellen superieure prestaties en efficiëntie op frontierschaal. Beide modellen zijn open-source gemaakt.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.
PDF772December 31, 2025