ChatPaper.aiChatPaper

LLaDA2.0: Skalierung von Diffusions-Sprachmodellen auf 100B

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

December 10, 2025
papers.authors: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI

papers.abstract

Dieses Paper stellt LLaDA2.0 vor – ein Tupel von diskreten Diffusions-Großsprachmodellen (dLLM), die durch systematische Konvertierung von autoregressiven (AR) Modellen auf bis zu 100B Gesamtparameter skaliert werden und damit ein neues Paradigma für den Einsatz in der Frontier-Skala etablieren. Anstatt kostspieliges Training von Grund auf durchzuführen, bewahrt LLaDA2.0 Wissensvererbung, progressive Anpassung und effizienzbewusste Designprinzipien und konvertiert ein vortrainiertes AR-Modell nahtlos mittels eines neuartigen 3-Phasen-Trainingsschemas auf Basis von blockweiser WSD (Warm-Up, Stable, Decay) in ein dLLM: progressive Erhöhung der Blockgröße in der Blockdiffusion (Warm-Up), großskalige Vollsequenzdiffusion (Stable) und Rückkehr zur kompakten Blockdiffusion (Decay). Zusammen mit Post-Training-Alignment durch SFT und DPO erhalten wir LLaDA2.0-mini (16B) und LLaDA2.0-flash (100B), zwei instruktionsfeinabgestimmte Mixture-of-Experts (MoE)-Varianten, die für den praktischen Einsatz optimiert sind. Durch den Erhalt der Vorteile des parallelen Decodierens bieten diese Modelle überlegene Leistung und Effizienz in der Frontier-Skala. Beide Modelle wurden als Open Source veröffentlicht.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.
PDF552December 20, 2025