LLaDA2.0: Escalonando Modelos de Linguagem de Difusão para 100 Bilhões de Parâmetros

Resumo

Este artigo apresenta o LLaDA2.0 — um conjunto de modelos de linguagem de grande escala (LLM) baseados em difusão discreta, escalando até 100 bilhões de parâmetros totais por meio de conversão sistemática a partir de modelos autorregressivos (AR) — estabelecendo um novo paradigma para implantação em escala de fronteira. Em vez do custoso treinamento a partir do zero, o LLaDA2.0 sustenta os princípios de herança de conhecimento, adaptação progressiva e design consciente da eficiência, convertendo perfeitamente um modelo AR pré-treinado em um LLM de difusão com um novo esquema de treinamento em 3 fases baseado em WSD em nível de bloco: aumento progressivo do tamanho do bloco na difusão por blocos (aquecimento), difusão de sequência completa em larga escala (estável) e retorno à difusão por blocos de tamanho compacto (decaimento). Juntamente com o alinhamento pós-treinamento com SFT e DPO, obtivemos o LLaDA2.0-mini (16B) e o LLaDA2.0-flash (100B), duas variantes ajustadas por instrução do tipo Mistura de Especialistas (MoE) otimizadas para implantação prática. Ao preservar as vantagens da decodificação paralela, esses modelos oferecem desempenho e eficiência superiores na escala de fronteira. Ambos os modelos foram disponibilizados como código aberto.

English

This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.

LLaDA2.0: Escalonando Modelos de Linguagem de Difusão para 100 Bilhões de Parâmetros

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Resumo

Support