LLaDA2.0 : Mise à l'échelle des modèles de langage par diffusion jusqu'à 100 milliards de paramètres
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
December 10, 2025
papers.authors: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI
papers.abstract
Ce document présente LLaDA2.0 -- un tuple de modèles de langage de grande taille à diffusion discrète (dLLM) atteignant jusqu'à 100 milliards de paramètres totaux grâce à une conversion systématique de modèles autorégressifs (AR) -- établissant un nouveau paradigme pour le déploiement à l'échelle des modèles de pointe. Plutôt qu'un coûteux entraînement from scratch, LLaDA2.0 maintient les principes d'héritage des connaissances, d'adaptation progressive et de conception axée sur l'efficacité, et convertit de manière transparente un modèle AR pré-entraîné en dLLM grâce à un nouveau schéma d'entraînement en 3 phases basé sur la WSD au niveau des blocs : augmentation progressive de la taille des blocs dans la diffusion par blocs (échauffement), diffusion à grande échelle sur des séquences complètes (phase stable) et retour à une diffusion par blocs de taille réduite (décroissance). Couplé à un alignement post-entraînement via SFT et DPO, nous obtenons LLaDA2.0-mini (16B) et LLaDA2.0-flash (100B), deux variantes à mixture d'experts (MoE) fine-tunées sur instructions et optimisées pour un déploiement pratique. En préservant les avantages du décodage parallèle, ces modèles offrent des performances et une efficacité supérieures à l'échelle des modèles de pointe. Les deux modèles ont été rendus open-source.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.