Les modèles de diffusion linguistique sont des apprenants de données exceptionnels
Diffusion Language Models are Super Data Learners
November 5, 2025
papers.authors: Jinjie Ni, Qian Liu, Longxu Dou, Chao Du, Zili Wang, Hang Yan, Tianyu Pang, Michael Qizhe Shieh
cs.AI
papers.abstract
Dans des conditions de pré-entraînement strictement contrôlées, nous observons un phénomène de croisement : lorsque les données uniques sont limitées, les modèles de langage à diffusion (DLM) surpassent systématiquement les modèles autorégressifs (AR) en s'entraînant sur un plus grand nombre d'époques. Ce point de croisement se décale vers des époques plus tardives avec davantage ou de meilleures données, plus tôt avec des modèles plus grands, et persiste à travers les architectures denses et parcimonieuses. Nous attribuons ces gains à trois facteurs cumulatifs : (1) la modélisation à ordre arbitraire, (2) la densité de calcul extrême issue du dé-bruitage bidirectionnel itératif, et (3) l'augmentation de type Monte Carlo intégrée ; l'ajout de bruit sur les entrées ou les paramètres améliore les modèles AR dans un contexte de données limitées mais ne permet pas de combler l'écart. À grande échelle, un DLM de 1,7 milliard de paramètres entraîné avec un budget de calcul d'environ 1,5 billion de tokens sur 10 milliards de tokens uniques de code Python dépasse un codeur AR entraîné avec des paramètres strictement identiques. De plus, un DLM d'un milliard de paramètres atteint une précision > 56 % sur HellaSwag et > 33 % sur MMLU en utilisant seulement 1 milliard de tokens, sans astuces particulières, simplement en répétant les données standard de pré-entraînement. Nous montrons également que dans ce régime, l'augmentation de la perte d'entropie croisée en validation n'implique pas une dégradation des performances en aval.
English
Under strictly controlled pre-training settings, we observe a Crossover: when
unique data is limited, diffusion language models (DLMs) consistently surpass
autoregressive (AR) models by training for more epochs. The crossover shifts
later with more or higher-quality data, earlier with larger models, and
persists across dense and sparse architectures. We attribute the gains to three
compounding factors: (1) any-order modeling, (2) super-dense compute from
iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation;
input or parameter noise improves AR under data constraint but cannot close the
gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B
unique Python tokens overtakes an AR coder trained with strictly matched
settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag
and > 33% on MMLU using only 1B tokens, without any special tricks, just by
repeating standard pre-training data. We also show that rising validation
cross-entropy does not imply degraded downstream performance in this regime.