Diffusie Taalmodellen zijn Super Data Leerders

Samenvatting

Onder strikt gecontroleerde pre-trainingsomstandigheden observeren we een crossover: wanneer unieke data beperkt is, overtreffen diffusion language models (DLM's) autoregressieve (AR) modellen consequent door gedurende meer epochs te trainen. De crossover verschuift naar later bij meer of hogerkwaliteitsdata, naar eerder bij grotere modellen, en blijft bestaan across dense en sparse architecturen. We schrijven de winst toe aan drie samenhangende factoren: (1) any-order modeling, (2) super-dense compute door iteratieve bidirectionele denoisering, en (3) ingebouwde Monte Carlo-augmentatie; input- of parameterruis verbetert AR onder databeperking maar kan de kloof niet dichten. Op schaal overtreft een 1.7B DLM, getraind met een ~1.5T-token compute budget op 10B unieke Python tokens, een AR-coder die met strikt gelijke instellingen is getraind. Bovendien behaalt een DLM met 1B parameters een nauwkeurigheid van >56% op HellaSwag en >33% op MMLU met slechts 1B tokens, zonder speciale trucs, enkel door standaard pre-trainingsdata te herhalen. We tonen ook aan dat een stijgende validatie-kruisentropie in dit regime niet wijst op verslechterde downstream-prestaties.

English

Under strictly controlled pre-training settings, we observe a Crossover: when unique data is limited, diffusion language models (DLMs) consistently surpass autoregressive (AR) models by training for more epochs. The crossover shifts later with more or higher-quality data, earlier with larger models, and persists across dense and sparse architectures. We attribute the gains to three compounding factors: (1) any-order modeling, (2) super-dense compute from iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation; input or parameter noise improves AR under data constraint but cannot close the gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B unique Python tokens overtakes an AR coder trained with strictly matched settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag and > 33% on MMLU using only 1B tokens, without any special tricks, just by repeating standard pre-training data. We also show that rising validation cross-entropy does not imply degraded downstream performance in this regime.

Diffusie Taalmodellen zijn Super Data Leerders

Diffusion Language Models are Super Data Learners

Samenvatting

Support