Modelos de Difusão de Linguagem em Grande Escala
Large Language Diffusion Models
February 14, 2025
Autores: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
Resumo
Os modelos autorregressivos (ARMs) são amplamente considerados a base dos grandes modelos de linguagem (LLMs). Desafiamos essa noção ao introduzir o LLaDA, um modelo de difusão treinado do zero sob o paradigma de pré-treinamento e ajuste fino supervisionado (SFT). O LLaDA modela distribuições por meio de um processo de mascaramento de dados direto e um processo reverso, parametrizado por um Transformer convencional para prever tokens mascarados. Ao otimizar um limite de verossimilhança, ele oferece uma abordagem generativa fundamentada para inferência probabilística. Em uma ampla gama de benchmarks, o LLaDA demonstra forte escalabilidade, superando nossas linhas de base de ARMs construídas internamente. Notavelmente, o LLaDA 8B é competitivo com LLMs robustos como o LLaMA3 8B em aprendizado contextual e, após o SFT, exibe habilidades impressionantes de seguir instruções em estudos de caso como diálogos multivolta. Além disso, o LLaDA aborda a maldição da reversão, superando o GPT-4o em uma tarefa de completar poemas reversos. Nossas descobertas estabelecem os modelos de difusão como uma alternativa viável e promissora aos ARMs, desafiando a suposição de que as principais capacidades dos LLMs discutidas acima estão intrinsecamente ligadas aos ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary