Diffusie Taalmodellen zijn Super Data Leerders
Diffusion Language Models are Super Data Learners
November 5, 2025
Auteurs: Jinjie Ni, Qian Liu, Longxu Dou, Chao Du, Zili Wang, Hang Yan, Tianyu Pang, Michael Qizhe Shieh
cs.AI
Samenvatting
Onder strikt gecontroleerde pre-trainingsomstandigheden observeren we een crossover: wanneer unieke data beperkt is, overtreffen diffusion language models (DLM's) autoregressieve (AR) modellen consequent door gedurende meer epochs te trainen. De crossover verschuift naar later bij meer of hogerkwaliteitsdata, naar eerder bij grotere modellen, en blijft bestaan across dense en sparse architecturen. We schrijven de winst toe aan drie samenhangende factoren: (1) any-order modeling, (2) super-dense compute door iteratieve bidirectionele denoisering, en (3) ingebouwde Monte Carlo-augmentatie; input- of parameterruis verbetert AR onder databeperking maar kan de kloof niet dichten. Op schaal overtreft een 1.7B DLM, getraind met een ~1.5T-token compute budget op 10B unieke Python tokens, een AR-coder die met strikt gelijke instellingen is getraind. Bovendien behaalt een DLM met 1B parameters een nauwkeurigheid van >56% op HellaSwag en >33% op MMLU met slechts 1B tokens, zonder speciale trucs, enkel door standaard pre-trainingsdata te herhalen. We tonen ook aan dat een stijgende validatie-kruisentropie in dit regime niet wijst op verslechterde downstream-prestaties.
English
Under strictly controlled pre-training settings, we observe a Crossover: when
unique data is limited, diffusion language models (DLMs) consistently surpass
autoregressive (AR) models by training for more epochs. The crossover shifts
later with more or higher-quality data, earlier with larger models, and
persists across dense and sparse architectures. We attribute the gains to three
compounding factors: (1) any-order modeling, (2) super-dense compute from
iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation;
input or parameter noise improves AR under data constraint but cannot close the
gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B
unique Python tokens overtakes an AR coder trained with strictly matched
settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag
and > 33% on MMLU using only 1B tokens, without any special tricks, just by
repeating standard pre-training data. We also show that rising validation
cross-entropy does not imply degraded downstream performance in this regime.