ChatPaper.aiChatPaper

Skalierungsverhalten diskreter Diffusionssprachmodelle

Scaling Behavior of Discrete Diffusion Language Models

December 11, 2025
papers.authors: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI

papers.abstract

Das moderne Pre-Training großer Sprachmodelle (LLM) erfordert enorme Rechenleistung und Trainingsdaten, wodurch das Skalierungsverhalten bzw. die Skalierungsgesetze verschiedener Modelle zu einem entscheidenden Unterscheidungsmerkmal werden. Diskrete Diffusions-Sprachmodelle (DLM) wurden als Alternative zu autoregressiven Sprachmodellen (ALM) vorgeschlagen. Deren Skalierungsverhalten wurde jedoch noch nicht vollständig erforscht, wobei frühere Arbeiten nahelegen, dass sie mehr Daten und Rechenleistung benötigen, um die Leistung von ALM zu erreichen. Wir untersuchen das Skalierungsverhalten von DLM bei verschiedenen Rauschtypen durch sanfte Interpolation zwischen maskierter und uniformer Diffusion unter besonderer Beachtung kritischer Hyperparameter wie Batch-Größe und Lernrate. Unsere Experimente zeigen, dass das Skalierungsverhalten von DLM stark vom Rauschtyp abhängt und sich erheblich von ALM unterscheidet. Während alle Rauschtypen bei rechengebundener Skalierung ähnliche Verlustwerte erreichen, stellen wir fest, dass uniforme Diffusion im Vergleich zu maskierter Diffusion mehr Parameter, aber weniger Daten für recheneffizientes Training benötigt, was sie zu einer vielversprechenden Option in datenbegrenzten Szenarien macht. Wir skalieren unser uniformes Diffusionsmodell auf bis zu 10 Mrd. Parameter, die mit 10²² FLOPs trainiert wurden, bestätigen das vorhergesagte Skalierungsverhalten und machen es damit zum größten öffentlich bekannten uniformen Diffusionsmodell bis dato.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.
PDF52December 17, 2025