LLaDA2.0: Escalonando Modelos de Linguagem de Difusão para 100 Bilhões de Parâmetros
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
December 10, 2025
Autores: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI
Resumo
Este artigo apresenta o LLaDA2.0 — um conjunto de modelos de linguagem de grande escala (LLM) baseados em difusão discreta, escalando até 100 bilhões de parâmetros totais por meio de conversão sistemática a partir de modelos autorregressivos (AR) — estabelecendo um novo paradigma para implantação em escala de fronteira. Em vez do custoso treinamento a partir do zero, o LLaDA2.0 sustenta os princípios de herança de conhecimento, adaptação progressiva e design consciente da eficiência, convertendo perfeitamente um modelo AR pré-treinado em um LLM de difusão com um novo esquema de treinamento em 3 fases baseado em WSD em nível de bloco: aumento progressivo do tamanho do bloco na difusão por blocos (aquecimento), difusão de sequência completa em larga escala (estável) e retorno à difusão por blocos de tamanho compacto (decaimento). Juntamente com o alinhamento pós-treinamento com SFT e DPO, obtivemos o LLaDA2.0-mini (16B) e o LLaDA2.0-flash (100B), duas variantes ajustadas por instrução do tipo Mistura de Especialistas (MoE) otimizadas para implantação prática. Ao preservar as vantagens da decodificação paralela, esses modelos oferecem desempenho e eficiência superiores na escala de fronteira. Ambos os modelos foram disponibilizados como código aberto.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.