ChatPaper.aiChatPaper

LLaDA2.0:拡散言語モデルを1000億パラメータにスケールアップ

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

December 10, 2025
著者: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI

要旨

本論文では、LLaDA2.0を提案する。これは、オートリグレッシブ(AR)モデルからの体系的な変換により、合計100Bパラメータまでスケールアップする離散拡散大規模言語モデル(dLLM)のタプルであり、フロンティア規模での展開に向けた新たなパラダイムを確立するものである。LLaDA2.0は、コストのかかるスクラッチからの学習ではなく、知識継承、段階的適応、効率性を考慮した設計原則を堅持し、新規の3段階ブロックレベルWSDベース学習スキーム(ブロック拡散におけるブロックサイズの段階的増加(ウォームアップ)、大規模フルシーケンス拡散(安定化)、コンパクトサイズブロック拡散への回帰(減衰))を通じて、事前学習済みARモデルをdLLMにシームレスに変換する。SFTとDPOによる学習後アラインメントと併せ、実用展開に最適化された2つの命令チューニング済みMixture-of-Experts(MoE)バリアントであるLLaDA2.0-mini(16B)とLLaDA2.0-flash(100B)を獲得した。並列デコードの利点を保持することで、これらのモデルはフロンティア規模において優れた性能と効率性を実現する。両モデルはオープンソース化された。
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.
PDF552December 20, 2025