ChatPaper.aiChatPaper

Comportement d'échelle des modèles de langage à diffusion discrète

Scaling Behavior of Discrete Diffusion Language Models

December 11, 2025
papers.authors: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI

papers.abstract

Le pré-entraînement des grands modèles de langage modernes consomme des quantités considérables de ressources de calcul et de données d'entraînement, faisant du comportement de mise à l'échelle, ou des lois d'échelle, un facteur distinctif clé entre les différents modèles. Les modèles de langage à diffusion discrète ont été proposés comme une alternative aux modèles de langage autorégressifs. Cependant, leur comportement de mise à l'échelle n'a pas encore été entièrement exploré, les travaux antérieurs suggérant qu'ils nécessitent plus de données et de calcul pour atteindre les performances des modèles autorégressifs. Nous étudions le comportement de mise à l'échelle des modèles à diffusion discrète pour différents types de bruit en interpolant de manière fluide entre la diffusion masquée et la diffusion uniforme, tout en accordant une attention particulière à des hyperparamètres cruciaux tels que la taille du lot et le taux d'apprentissage. Nos expériences révèlent que le comportement de mise à l'échelle des modèles à diffusion discrète dépend fortement du type de bruit et diffère considérablement de celui des modèles autorégressifs. Si tous les types de bruit convergent vers des valeurs de perte similaires dans un contexte limité par le calcul, nous constatons que la diffusion uniforme nécessite plus de paramètres et moins de données pour un entraînement efficace en calcul par rapport à la diffusion masquée, ce qui en fait un candidat prometteur dans des scénarios limités par les données. Nous avons mis à l'échelle notre modèle à diffusion uniforme jusqu'à 10 milliards de paramètres, entraîné sur 10^{22} opérations en virgule flottante, confirmant le comportement de mise à l'échelle prédit et en faisant le plus grand modèle à diffusion uniforme publiquement connu à ce jour.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.
PDF52December 17, 2025