ChatPaper.aiChatPaper

Comportamento di Scaling dei Modelli Linguistici a Diffusione Discreti

Scaling Behavior of Discrete Diffusion Language Models

December 11, 2025
Autori: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI

Abstract

Il pre-addestramento dei moderni LLM consuma enormi quantità di potenza di calcolo e dati di addestramento, rendendo il comportamento di scaling, o le leggi di scaling, dei diversi modelli un fattore distintivo chiave. I modelli linguistici a diffusione discreta (DLM) sono stati proposti come alternativa ai modelli linguistici autoregressivi (ALM). Tuttavia, il loro comportamento di scaling non è stato ancora completamente esplorato, con lavori precedenti che suggeriscono che richiedono più dati e potenza di calcolo per eguagliare le prestazioni degli ALM. Studiamo il comportamento di scaling dei DLM su diversi tipi di rumore interpolando gradualmente tra la diffusione mascherata e quella uniforme, prestando particolare attenzione a iperparametri cruciali come la dimensione del batch e il tasso di apprendimento. I nostri esperimenti rivelano che il comportamento di scaling dei DLM dipende fortemente dal tipo di rumore ed è considerevolmente diverso da quello degli ALM. Sebbene tutti i tipi di rumore convergano a valori di loss simili nello scaling vincolato dal calcolo, scopriamo che la diffusione uniforme richiede più parametri e meno dati per un addestramento efficiente in termini computazionali rispetto alla diffusione mascherata, rendendola un candidato promettente in scenari vincolati dai dati. Scaliamo il nostro modello a diffusione uniforme fino a 10 miliardi di parametri addestrati per 10^{22} FLOP, confermando il comportamento di scaling previsto e rendendolo il più grande modello a diffusione uniforme pubblicamente noto fino ad oggi.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.
PDF52December 17, 2025