Modelos de Difusão de Linguagem em Grande EscalaLarge Language Diffusion Models
Os modelos autorregressivos (ARMs) são amplamente considerados a base dos grandes modelos de linguagem (LLMs). Desafiamos essa noção ao introduzir o LLaDA, um modelo de difusão treinado do zero sob o paradigma de pré-treinamento e ajuste fino supervisionado (SFT). O LLaDA modela distribuições por meio de um processo de mascaramento de dados direto e um processo reverso, parametrizado por um Transformer convencional para prever tokens mascarados. Ao otimizar um limite de verossimilhança, ele oferece uma abordagem generativa fundamentada para inferência probabilística. Em uma ampla gama de benchmarks, o LLaDA demonstra forte escalabilidade, superando nossas linhas de base de ARMs construídas internamente. Notavelmente, o LLaDA 8B é competitivo com LLMs robustos como o LLaMA3 8B em aprendizado contextual e, após o SFT, exibe habilidades impressionantes de seguir instruções em estudos de caso como diálogos multivolta. Além disso, o LLaDA aborda a maldição da reversão, superando o GPT-4o em uma tarefa de completar poemas reversos. Nossas descobertas estabelecem os modelos de difusão como uma alternativa viável e promissora aos ARMs, desafiando a suposição de que as principais capacidades dos LLMs discutidas acima estão intrinsecamente ligadas aos ARMs.