ChatPaper.aiChatPaper

Schaalgedrag van Discrete Diffusie Taalmodellen

Scaling Behavior of Discrete Diffusion Language Models

December 11, 2025
Auteurs: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI

Samenvatting

Het pre-trainen van moderne grote taalmodellen vergt enorme rekenkracht en trainingsdata, waardoor de schaalgedragswetten van verschillende modellen een cruciale onderscheidende factor vormen. Discrete diffusietaalmodellen zijn voorgesteld als alternatief voor autoregressieve taalmodellen. Hun schaalgedrag is echter nog niet volledig onderzocht, waarbij eerder onderzoek suggereert dat ze meer data en rekenkracht nodig hebben om de prestaties van autoregressieve modellen te evenaren. Wij bestuderen het schaalgedrag van discrete diffusiemodellen bij verschillende ruistypen door soepel te interpoleren tussen gemaskeerde en uniforme diffusie, waarbij we nauwlettend aandacht besteden aan cruciale hyperparameters zoals batchgrootte en leersnelheid. Onze experimenten tonen aan dat het schaalgedrag van discrete diffusiemodellen sterk afhangt van het ruistype en aanzienlijk verschilt van autoregressieve modellen. Hoewel alle ruistypen convergeren naar vergelijkbare verlieswaarden bij rekengebonden schaling, ontdekken we dat uniforme diffusie meer parameters maar minder data vereist voor rekenzuinige training vergeleken met gemaskeerde diffusie. Dit maakt uniforme diffusie een veelbelovende kandidaat voor data-gebonden scenario's. We schalen ons uniforme diffusiemodel op tot 10B parameters getraind met 10^{22} FLOPs, waarbij we het voorspelde schaalgedrag bevestigen en het daarmee het grootste openbaar bekende uniforme diffusiemodel tot op heden maken.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.
PDF52December 17, 2025