Modelli di Diffusione per il Linguaggio su Grande Scala
Large Language Diffusion Models
February 14, 2025
Autori: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
Abstract
I modelli autoregressivi (ARMs) sono ampiamente considerati come il fondamento dei grandi modelli linguistici (LLMs). Mettiamo in discussione questa nozione introducendo LLaDA, un modello di diffusione addestrato da zero secondo il paradigma di pre-addestramento e fine-tuning supervisionato (SFT). LLaDA modella le distribuzioni attraverso un processo di mascheramento dei dati in avanti e un processo inverso, parametrizzato da un Transformer standard per prevedere i token mascherati. Ottimizzando un limite di verosimiglianza, fornisce un approccio generativo principiato per l'inferenza probabilistica. In un'ampia gamma di benchmark, LLaDA dimostra una forte scalabilità, superando le nostre baseline ARM auto-costruite. Notevolmente, LLaDA 8B è competitivo con potenti LLMs come LLaMA3 8B nell'apprendimento in contesto e, dopo il SFT, mostra impressionanti capacità di seguire istruzioni in casi di studio come il dialogo multi-turno. Inoltre, LLaDA affronta la maledizione dell'inversione, superando GPT-4o in un compito di completamento di poesie inverse. Le nostre scoperte stabiliscono i modelli di diffusione come un'alternativa valida e promettente agli ARMs, sfidando l'assunzione che le capacità chiave degli LLM discusse sopra siano intrinsecamente legate agli ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary