LLaDA2.0: Scalabilità dei Modelli Linguistici a Diffusione fino a 100 Miliardi di Parametri
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
December 10, 2025
Autori: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI
Abstract
Questo articolo presenta LLaDA2.0 — una tupla di modelli linguistici di grandi dimensioni a diffusione discreta (dLLM) che scala fino a 100 miliardi di parametri totali attraverso una conversione sistematica da modelli auto-regressivi (AR) — stabilendo un nuovo paradigma per lo sviluppo su scala di frontiera. Invece di un costoso addestramento da zero, LLaDA2.0 mantiene i principi di ereditarietà della conoscenza, adattamento progressivo e progettazione orientata all'efficienza, convertendo in modo fluido un modello AR pre-addestrato in un dLLM con un nuovo schema di addestramento in 3 fasi basato su WSD a livello di blocco: aumento progressivo della dimensione del blocco nella diffusione a blocchi (fase di riscaldamento), diffusione su larga scala dell'intera sequenza (fase stabile) e ritorno a una diffusione a blocchi di dimensioni compatte (fase di decadimento). Insieme all'allineamento post-addestramento con SFT e DPO, otteniamo LLaDA2.0-mini (16B) e LLaDA2.0-flash (100B), due varianti regolate su istruzioni a miscela di esperti (MoE) ottimizzate per la distribuzione pratica. Preservando i vantaggi del decoding parallelo, questi modelli offrono prestazioni ed efficienza superiori su scala di frontiera. Entrambi i modelli sono stati resi open-source.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.