Modelos de Linguagem de Difusão são Super Aprendizes de Dados

Resumo

Em configurações de pré-treinamento estritamente controladas, observamos um Ponto de Cruzamento: quando os dados únicos são limitados, os modelos de linguagem de difusão (DLMs) superam consistentemente os modelos autorregressivos (AR) ao serem treinados por mais épocas. O ponto de cruzamento desloca-se para mais tarde com mais dados ou dados de maior qualidade, para mais cedo com modelos maiores, e persiste em arquiteturas densas e esparsas. Atribuímos os ganhos a três fatores que se combinam: (1) modelagem de qualquer ordem, (2) computação superdensa proveniente da desbidirecionalização iterativa, e (3) aumento de Monte Carlo incorporado; o ruído de entrada ou de parâmetro melhora os modelos AR sob restrição de dados, mas não consegue fechar a lacuna. Em escala, um DLM de 1.7B treinado com um orçamento computacional de ~1.5T de tokens em 10B de tokens únicos de Python supera um codificador AR treinado com configurações estritamente equivalentes. Além disso, um DLM com 1B de parâmetros atinge mais de 56% de precisão no HellaSwag e mais de 33% no MMLU usando apenas 1B de tokens, sem quaisquer truques especiais, apenas repetindo dados padrão de pré-treinamento. Também mostramos que o aumento da entropia cruzada de validação não implica desempenho degradado em tarefas downstream neste regime.

English

Under strictly controlled pre-training settings, we observe a Crossover: when unique data is limited, diffusion language models (DLMs) consistently surpass autoregressive (AR) models by training for more epochs. The crossover shifts later with more or higher-quality data, earlier with larger models, and persists across dense and sparse architectures. We attribute the gains to three compounding factors: (1) any-order modeling, (2) super-dense compute from iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation; input or parameter noise improves AR under data constraint but cannot close the gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B unique Python tokens overtakes an AR coder trained with strictly matched settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag and > 33% on MMLU using only 1B tokens, without any special tricks, just by repeating standard pre-training data. We also show that rising validation cross-entropy does not imply degraded downstream performance in this regime.

Modelos de Linguagem de Difusão são Super Aprendizes de Dados

Diffusion Language Models are Super Data Learners

Resumo

Support