Diffusionssprachmodelle sind herausragende Datenlerner

papers.abstract

Unter streng kontrollierten Vortrainingsbedingungen beobachten wir ein Crossover-Phänomen: Wenn die Menge an einzigartigen Daten begrenzt ist, übertreffen Diffusions-Sprachmodelle (DLMs) autoregressive (AR) Modelle konsistent, indem sie über mehr Epochen trainiert werden. Der Crossover-Punkt verschiebt sich nach hinten, wenn mehr oder qualitativ hochwertigere Daten verfügbar sind, und nach vorne bei größeren Modellen; das Phänomen bleibt über dichte und sparse Architekturen hinweg bestehen. Wir führen die Gewinne auf drei sich verstärkende Faktoren zurück: (1) Any-Order-Modellierung, (2) Super-Dense-Compute durch iteratives bidirektionales Entrauschen und (3) integrierte Monte-Carlo-Augmentierung; Rauschen in den Eingaben oder Parametern verbessert AR-Modelle bei Datenknappheit, kann die Lücke jedoch nicht schließen. In großem Maßstab übertrifft ein 1,7B-DLM, das mit einem Compute-Budget von ~1,5B Token auf 10B einzigartigen Python-Tokens trainiert wurde, einen AR-Coder, der unter streng identischen Bedingungen trainiert wurde. Zusätzlich erreicht ein DLM mit 1B Parametern eine Genauigkeit von >56 % auf HellaSwag und >33 % auf MMLU unter Verwendung von nur 1B Tokens, ohne spezielle Tricks, allein durch die Wiederholung standardmäßiger Vortrainingsdaten. Wir zeigen auch, dass ein ansteigendes Kreuzentropie-Validierungsloss in diesem Regime keine Verschlechterung der Downstream-Leistung impliziert.

English

Under strictly controlled pre-training settings, we observe a Crossover: when unique data is limited, diffusion language models (DLMs) consistently surpass autoregressive (AR) models by training for more epochs. The crossover shifts later with more or higher-quality data, earlier with larger models, and persists across dense and sparse architectures. We attribute the gains to three compounding factors: (1) any-order modeling, (2) super-dense compute from iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation; input or parameter noise improves AR under data constraint but cannot close the gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B unique Python tokens overtakes an AR coder trained with strictly matched settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag and > 33% on MMLU using only 1B tokens, without any special tricks, just by repeating standard pre-training data. We also show that rising validation cross-entropy does not imply degraded downstream performance in this regime.

Diffusionssprachmodelle sind herausragende Datenlerner

Diffusion Language Models are Super Data Learners

papers.abstract

Support