LLaDA2.0: Escalando Modelos de Lenguaje de Difusión a 100.000 Millones
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
December 10, 2025
Autores: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI
Resumen
Este artículo presenta LLaDA2.0 — una tupla de modelos de lenguaje grandes de difusión discreta (dLLM) que escalan hasta 100.000 millones de parámetros totales mediante una conversión sistemática a partir de modelos autorregresivos (AR) — estableciendo un nuevo paradigma para el despliegue a escala de frontera. En lugar de un costoso entrenamiento desde cero, LLaDA2.0 mantiene los principios de herencia del conocimiento, adaptación progresiva y diseño consciente de la eficiencia, convirtiendo de forma fluida un modelo AR preentrenado en un dLLM con un novedoso esquema de entrenamiento en 3 fases basado en WSD a nivel de bloque: aumento progresivo del tamaño del bloque en la difusión por bloques (calentamiento), difusión de secuencia completa a gran escala (estable) y reversión a una difusión por bloques de tamaño compacto (decaimiento). Junto con la alineación posterior al entrenamiento mediante SFT y DPO, obtenemos LLaDA2.0-mini (16B) y LLaDA2.0-flash (100B), dos variantes ajustadas por instrucciones de Mixture-of-Experts (MoE) optimizadas para el despliegue práctico. Al preservar las ventajas del decodificado paralelo, estos modelos ofrecen un rendimiento y una eficiencia superiores a escala de frontera. Ambos modelos fueron liberados como código abierto.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.