ChatPaper.aiChatPaper

LLaDA2.0: 확산 언어 모델을 1000억 파라미터 규모로 확장

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

December 10, 2025
저자: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
cs.AI

초록

본 논문은 사전 학습된 자기회귀(AR) 모델을 체계적으로 변환하여 총 1,000억 개의 매개변수 규모로 확장된 이산 확산 대규모 언어 모델(dLLM) 튜플인 LLaDA2.0을 제안하며, 이는 최첨단 규모 모델 배포를 위한 새로운 패러다임을 정립한다. LLaDA2.0은 처음부터의 고비용 학습 대신 지식 계승, 점진적 적응, 효율성 중심 설계 원칙을 견지하며, 새로운 3단계 블록 수준 WSD 기반 학습 방식(블록 확산에서 블록 크기 점진적 증가(웜업), 대규모 전체 시퀀스 확산(안정화), 컴팩트 크기 블록 확산으로 회귀(디케이))을 통해 사전 학습된 AR 모델을 dLLM으로 원활하게 변환한다. SFT와 DPO를 통한 사후 학습 정렬과 함께, 실제 배포에 최적화된 두 가지 지시어 튜닝 MoE 변종인 LLaDA2.0-mini(160억)와 LLaDA2.0-flash(1,000억)를 확보하였다. 병렬 디코딩의 장점을 유지함으로써, 이 모델들은 최첨단 규모에서 우수한 성능과 효율성을 제공한다. 두 모델 모두 오픈소스로 공개되었다.
English
This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.
PDF552December 20, 2025