Диффузионные языковые модели — это супер-обучаемые данные
Diffusion Language Models are Super Data Learners
November 5, 2025
Авторы: Jinjie Ni, Qian Liu, Longxu Dou, Chao Du, Zili Wang, Hang Yan, Tianyu Pang, Michael Qizhe Shieh
cs.AI
Аннотация
В строго контролируемых условиях предварительного обучения мы наблюдаем переломный момент: когда объем уникальных данных ограничен, диффузионные языковые модели (DLM) последовательно превосходят авторегрессионные (AR) модели за счет обучения на большем количестве эпох. Этот переломный момент смещается на более поздние этапы при увеличении объема или повышении качества данных, на более ранние — при увеличении размера моделей, и сохраняется как для плотных, так и для разреженных архитектур. Мы объясняем это преимущество совокупным действием трех факторов: (1) моделирование в произвольном порядке, (2) сверхплотные вычисления за счет итеративного двунаправленного шумоподавления и (3) встроенная аугментация методом Монте-Карло; добавление шума во входные данные или параметры улучшает работу AR-моделей при ограничении данных, но не позволяет устранить разрыв. В крупном масштабе DLM с 1.7 млрд параметров, обученная с вычислительным бюджетом ~1.5 трлн токенов на 10 млрд уникальных токенов Python, превосходит AR-кодера, обученного в строго идентичных условиях. Кроме того, DLM с 1 млрд параметров достигает точности >56% на HellaSwag и >33% на MMLU, используя всего 1 млрд токенов, без каких-либо специальных приемов, исключительно за счет повторения стандартных данных предварительного обучения. Мы также показываем, что в данном режиме рост перекрестной энтропии на валидации не свидетельствует о снижении производительности на последующих задачах.
English
Under strictly controlled pre-training settings, we observe a Crossover: when
unique data is limited, diffusion language models (DLMs) consistently surpass
autoregressive (AR) models by training for more epochs. The crossover shifts
later with more or higher-quality data, earlier with larger models, and
persists across dense and sparse architectures. We attribute the gains to three
compounding factors: (1) any-order modeling, (2) super-dense compute from
iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation;
input or parameter noise improves AR under data constraint but cannot close the
gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B
unique Python tokens overtakes an AR coder trained with strictly matched
settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag
and > 33% on MMLU using only 1B tokens, without any special tricks, just by
repeating standard pre-training data. We also show that rising validation
cross-entropy does not imply degraded downstream performance in this regime.