Grote Taaldiffusiemodellen

Samenvatting

Autoregressieve modellen (ARMs) worden algemeen beschouwd als de hoeksteen van grote taalmodelen (LLMs). Wij betwisten deze opvatting door LLaDA te introduceren, een diffusiemodel dat vanaf nul is getraind volgens het paradigma van voorafgaande training en begeleide fijnafstemming (SFT). LLaDA modelleert verdelingen via een voorwaarts gegevensmaskeringsproces en een omgekeerd proces, geparametriseerd door een standaard Transformer om gemaskeerde tokens te voorspellen. Door een waarschijnlijkheidsgrens te optimaliseren, biedt het een principiële generatieve benadering voor probabilistische inferentie. Over uitgebreide benchmarks heen toont LLaDA sterke schaalbaarheid en overtreft het onze zelf geconstrueerde ARM-baselines. Opmerkelijk is dat LLaDA 8B concurreert met sterke LLMs zoals LLaMA3 8B in contextueel leren en, na SFT, indrukwekkende instructievolgvaardigheden vertoont in casestudies zoals meerzijdige dialoog. Bovendien adresseert LLaDA de omkeringvloek en overtreft het GPT-4o in een omkeringgedichtvoltooiingstaak. Onze bevindingen vestigen diffusiemodellen als een levensvatbaar en veelbelovend alternatief voor ARMs, waarbij de aanname wordt uitgedaagd dat de hierboven besproken sleutelcapaciteiten van LLMs inherent verbonden zijn aan ARMs.

English

Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs.

Grote Taaldiffusiemodellen

Large Language Diffusion Models

Samenvatting

Support