LLaDA2.0: Масштабирование диффузионных языковых моделей до 100 миллиардов параметров
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
December 10, 2025
Авторы: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI
Аннотация
В данной статье представлена LLaDA2.0 — пара дискретных диффузионных больших языковых моделей (dLLM), масштабируемых до 100 млрд общих параметров за счет систематического преобразования авторегрессионных (AR) моделей, что устанавливает новую парадигму для развертывания на передовом уровне. Вместо дорогостоящего обучения с нуля LLaDA2.0 следует принципам наследования знаний, прогрессивной адаптации и эффективности, обеспечивая бесшовное преобразование предобученной AR-модели в dLLM с помощью новой 3-фазной схемы обучения на основе блочного WSD: прогрессивное увеличение размера блока в блочной диффузии (разогрев), крупномасштабная диффузия на полных последовательностях (стабильная фаза) и возврат к компактной блочной диффузии (затухание). Совместно с посттренировочной адаптацией методами SFT и DPO мы получаем LLaDA2.0-mini (16B) и LLaDA2.0-flash (100B) — две инструктивно-настроенные варианты моделей типа Mixture-of-Experts (MoE), оптимизированные для практического развертывания. Сохраняя преимущества параллельного декодирования, эти модели демонстрируют превосходную производительность и эффективность на передовом уровне. Обе модели были открыты для общего доступа.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.