ChatPaper.aiChatPaper

Modelos de Difusão de Linguagem em Grande Escala

Large Language Diffusion Models

February 14, 2025
Autores: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI

Resumo

Os modelos autorregressivos (ARMs) são amplamente considerados a base dos grandes modelos de linguagem (LLMs). Desafiamos essa noção ao introduzir o LLaDA, um modelo de difusão treinado do zero sob o paradigma de pré-treinamento e ajuste fino supervisionado (SFT). O LLaDA modela distribuições por meio de um processo de mascaramento de dados direto e um processo reverso, parametrizado por um Transformer convencional para prever tokens mascarados. Ao otimizar um limite de verossimilhança, ele oferece uma abordagem generativa fundamentada para inferência probabilística. Em uma ampla gama de benchmarks, o LLaDA demonstra forte escalabilidade, superando nossas linhas de base de ARMs construídas internamente. Notavelmente, o LLaDA 8B é competitivo com LLMs robustos como o LLaMA3 8B em aprendizado contextual e, após o SFT, exibe habilidades impressionantes de seguir instruções em estudos de caso como diálogos multivolta. Além disso, o LLaDA aborda a maldição da reversão, superando o GPT-4o em uma tarefa de completar poemas reversos. Nossas descobertas estabelecem os modelos de difusão como uma alternativa viável e promissora aos ARMs, desafiando a suposição de que as principais capacidades dos LLMs discutidas acima estão intrinsecamente ligadas aos ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs.

Summary

AI-Generated Summary

PDF1139February 17, 2025