Los Modelos de Lenguaje de Difusión son Aprendices de Datos Excepcionales

Resumen

Bajo condiciones de pre-entrenamiento estrictamente controladas, observamos un Punto de Cruce: cuando los datos únicos son limitados, los modelos de lenguaje de difusión (DLM) superan consistentemente a los modelos autorregresivos (AR) al entrenarse durante más épocas. El punto de cruce se desplaza hacia épocas posteriores con más datos o datos de mayor calidad, hacia épocas anteriores con modelos más grandes, y persiste en arquitecturas densas y dispersas. Atribuimos las mejoras a tres factores que se potencian: (1) el modelado de cualquier orden, (2) el cómputo superdenso proveniente de la desruidización bidireccional iterativa, y (3) la aumentación Monte Carlo incorporada; el ruido en la entrada o los parámetros mejora a los modelos AR bajo limitación de datos, pero no puede cerrar la brecha. A escala, un DLM de 1.7B entrenado con un presupuesto computacional de ~1.5T de tokens en 10B tokens únicos de Python supera a un codificador AR entrenado con configuraciones estrictamente equivalentes. Además, un DLM de 1B de parámetros logra una precisión > 56% en HellaSwag y > 33% en MMLU utilizando solo 1B de tokens, sin trucos especiales, simplemente repitiendo datos estándar de pre-entrenamiento. También demostramos que el aumento de la entropía cruzada de validación no implica un rendimiento degradado en tareas posteriores en este régimen.

English

Under strictly controlled pre-training settings, we observe a Crossover: when unique data is limited, diffusion language models (DLMs) consistently surpass autoregressive (AR) models by training for more epochs. The crossover shifts later with more or higher-quality data, earlier with larger models, and persists across dense and sparse architectures. We attribute the gains to three compounding factors: (1) any-order modeling, (2) super-dense compute from iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation; input or parameter noise improves AR under data constraint but cannot close the gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B unique Python tokens overtakes an AR coder trained with strictly matched settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag and > 33% on MMLU using only 1B tokens, without any special tricks, just by repeating standard pre-training data. We also show that rising validation cross-entropy does not imply degraded downstream performance in this regime.

Los Modelos de Lenguaje de Difusión son Aprendices de Datos Excepcionales

Diffusion Language Models are Super Data Learners

Resumen

Support