Comportamiento de Escalado en Modelos de Lenguaje de Difusión Discreta
Scaling Behavior of Discrete Diffusion Language Models
December 11, 2025
Autores: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI
Resumen
El preentrenamiento moderno de modelos lingüísticos grandes (LLM) consume vastas cantidades de capacidad computacional y datos de entrenamiento, lo que convierte el comportamiento de escalado, o las leyes de escalado, de diferentes modelos en un factor distintivo clave. Los modelos de lenguaje de difusión discreta (DLM) se han propuesto como una alternativa a los modelos de lenguaje autorregresivos (ALM). Sin embargo, su comportamiento de escalado aún no ha sido explorado completamente, y trabajos previos sugieren que requieren más datos y capacidad computacional para igualar el rendimiento de los ALM.
Estudiamos el comportamiento de escalado de los DLM con diferentes tipos de ruido mediante una interpolación suave entre difusión enmascarada y difusión uniforme, prestando especial atención a hiperparámetros cruciales como el tamaño del lote y la tasa de aprendizaje. Nuestros experimentos revelan que el comportamiento de escalado de los DLM depende en gran medida del tipo de ruido y es considerablemente diferente al de los ALM. Si bien todos los tipos de ruido convergen a valores de pérdida similares en un escalado limitado por computación, encontramos que la difusión uniforme requiere más parámetros y menos datos para un entrenamiento eficiente en computación en comparación con la difusión enmascarada, lo que la convierte en un candidato prometedor en entornos limitados por datos. Escalamos nuestro modelo de difusión uniforme hasta 10 mil millones de parámetros entrenados con 10^{22} operaciones de punto flotante (FLOPs), confirmando el comportamiento de escalado predicho y convirtiéndolo en el modelo de difusión uniforme más grande conocido públicamente hasta la fecha.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs.
We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.