Grote Taaldiffusiemodellen
Large Language Diffusion Models
February 14, 2025
Auteurs: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
Samenvatting
Autoregressieve modellen (ARMs) worden algemeen beschouwd als de hoeksteen van grote taalmodelen (LLMs). Wij betwisten deze opvatting door LLaDA te introduceren, een diffusiemodel dat vanaf nul is getraind volgens het paradigma van voorafgaande training en begeleide fijnafstemming (SFT). LLaDA modelleert verdelingen via een voorwaarts gegevensmaskeringsproces en een omgekeerd proces, geparametriseerd door een standaard Transformer om gemaskeerde tokens te voorspellen. Door een waarschijnlijkheidsgrens te optimaliseren, biedt het een principiële generatieve benadering voor probabilistische inferentie. Over uitgebreide benchmarks heen toont LLaDA sterke schaalbaarheid en overtreft het onze zelf geconstrueerde ARM-baselines. Opmerkelijk is dat LLaDA 8B concurreert met sterke LLMs zoals LLaMA3 8B in contextueel leren en, na SFT, indrukwekkende instructievolgvaardigheden vertoont in casestudies zoals meerzijdige dialoog. Bovendien adresseert LLaDA de omkeringvloek en overtreft het GPT-4o in een omkeringgedichtvoltooiingstaak. Onze bevindingen vestigen diffusiemodellen als een levensvatbaar en veelbelovend alternatief voor ARMs, waarbij de aanname wordt uitgedaagd dat de hierboven besproken sleutelcapaciteiten van LLMs inherent verbonden zijn aan ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary