ChatPaper.aiChatPaper

Große Sprachdiffusionsmodelle

Large Language Diffusion Models

February 14, 2025
Autoren: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI

Zusammenfassung

Autoregressive Modelle (ARMs) gelten weithin als Grundpfeiler großer Sprachmodelle (LLMs). Wir fordern diese Auffassung heraus, indem wir LLaDA vorstellen, ein Diffusionsmodell, das von Grund auf unter dem Prä-Training und überwachten Feinabstimmungsparadigma trainiert wird. LLaDA modelliert Verteilungen durch einen Vorwärtsdatenmaskierungsprozess und einen Rückprozess, parametrisiert durch einen Vanilla-Transformer zur Vorhersage maskierter Tokens. Durch Optimierung einer Likelihood-Schranke bietet es einen fundierten generativen Ansatz für probabilistische Inferenz. Über umfangreiche Benchmarks hinweg zeigt LLaDA eine starke Skalierbarkeit und übertrifft unsere selbst erstellten ARM-Baselines. Bemerkenswerterweise ist LLaDA 8B im Bereich des kontextbezogenen Lernens wettbewerbsfähig mit starken LLMs wie LLaMA3 8B und zeigt nach der überwachten Feinabstimmung beeindruckende Fähigkeiten zur Anweisungsfolge in Fallstudien wie dem Mehrfachdialog. Darüber hinaus befasst sich LLaDA mit dem Umkehrfluch und übertrifft GPT-4o in einer Aufgabe zur Abschluss eines Umkehrgedichts. Unsere Ergebnisse etablieren Diffusionsmodelle als eine machbare und vielversprechende Alternative zu ARMs und fordern die Annahme heraus, dass die oben diskutierten Schlüsselkapazitäten von LLMs inhärent an ARMs gebunden sind.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs.

Summary

AI-Generated Summary

PDF1139February 17, 2025