I Modelli Linguistici di Diffusione sono Super Apprenditori di Dati

Abstract

In condizioni di pre-addestramento strettamente controllate, osserviamo un fenomeno di *Crossover*: quando i dati unici sono limitati, i modelli linguistico di diffusione (DLM) superano costantemente i modelli autoregressivi (AR) addestrandoli per un numero maggiore di epoche. Il punto di crossover si sposta temporalmente verso fasi successive con dati più abbondanti o di qualità superiore, e verso fasi precedenti con modelli più grandi, persistendo sia in architetture dense che sparse. Attribuiamo i vantaggi a tre fattori che si combinano: (1) la modellazione di ordine qualsiasi, (2) il calcolo super-denso derivante dall'iterativa eliminazione del rumore bidirezionale, e (3) l'aumentazione Monte Carlo integrata; l'aggiunta di rumore in input o ai parametri migliora le prestazioni AR in condizioni di scarsità di dati, ma non è sufficiente a colmare il divario. Su larga scala, un DLM da 1.7B addestrato con un budget computazionale di ~1.5T token su 10B token unici di codice Python supera un codificatore AR addestrato in condizioni strettamente equivalenti. Inoltre, un DLM da 1 miliardo di parametri raggiunge un'accuratezza >56% su HellaSwag e >33% su MMLU utilizzando solo 1B token, senza alcun accorgimento speciale, semplicemente ripetendo i dati standard di pre-addestramento. Dimostriamo inoltre che, in questo regime, un aumento dell'entropia incrociata sulla validazione non implica un degrado delle prestazioni sui task downstream.

English

Under strictly controlled pre-training settings, we observe a Crossover: when unique data is limited, diffusion language models (DLMs) consistently surpass autoregressive (AR) models by training for more epochs. The crossover shifts later with more or higher-quality data, earlier with larger models, and persists across dense and sparse architectures. We attribute the gains to three compounding factors: (1) any-order modeling, (2) super-dense compute from iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation; input or parameter noise improves AR under data constraint but cannot close the gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B unique Python tokens overtakes an AR coder trained with strictly matched settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag and > 33% on MMLU using only 1B tokens, without any special tricks, just by repeating standard pre-training data. We also show that rising validation cross-entropy does not imply degraded downstream performance in this regime.

I Modelli Linguistici di Diffusione sono Super Apprenditori di Dati

Diffusion Language Models are Super Data Learners

Abstract

Support