Grote TaaldiffusiemodellenLarge Language Diffusion Models
Autoregressieve modellen (ARMs) worden algemeen beschouwd als de hoeksteen van grote taalmodelen (LLMs). Wij betwisten deze opvatting door LLaDA te introduceren, een diffusiemodel dat vanaf nul is getraind volgens het paradigma van voorafgaande training en begeleide fijnafstemming (SFT). LLaDA modelleert verdelingen via een voorwaarts gegevensmaskeringsproces en een omgekeerd proces, geparametriseerd door een standaard Transformer om gemaskeerde tokens te voorspellen. Door een waarschijnlijkheidsgrens te optimaliseren, biedt het een principiële generatieve benadering voor probabilistische inferentie. Over uitgebreide benchmarks heen toont LLaDA sterke schaalbaarheid en overtreft het onze zelf geconstrueerde ARM-baselines. Opmerkelijk is dat LLaDA 8B concurreert met sterke LLMs zoals LLaMA3 8B in contextueel leren en, na SFT, indrukwekkende instructievolgvaardigheden vertoont in casestudies zoals meerzijdige dialoog. Bovendien adresseert LLaDA de omkeringvloek en overtreft het GPT-4o in een omkeringgedichtvoltooiingstaak. Onze bevindingen vestigen diffusiemodellen als een levensvatbaar en veelbelovend alternatief voor ARMs, waarbij de aanname wordt uitgedaagd dat de hierboven besproken sleutelcapaciteiten van LLMs inherent verbonden zijn aan ARMs.