離散拡散言語モデルのスケーリング挙動
Scaling Behavior of Discrete Diffusion Language Models
December 11, 2025
著者: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI
要旨
現代の大規模言語モデル事前学習は膨大な計算資源と訓練データを消費するため、異なるモデルのスケーリング特性(スケーリング則)は重要な差異要因となっている。離散拡散言語モデル(DLM)は自己回帰言語モデル(ALM)の代替として提案されているが、そのスケーリング特性は未だ十分に解明されておらず、従来研究ではALMと同等の性能を達成するためにより多くのデータと計算量を要すると示唆されていた。
本研究では、マスク拡散と一様拡散の間を滑らかに補間しつつ、バッチサイズや学習率などの重要ハイパーパラメータに注意を払うことで、異なるノイズタイプにおけるDLMのスケーリング特性を調査する。実験結果から、DLMのスケーリング特性はノイズタイプに強く依存し、ALMとは大きく異なることが明らかとなった。計算量制約下でのスケーリングでは全てのノイズタイプが同様の損失値に収束するが、計算効率の良い訓練においては、マスク拡散と比較して一様拡散はより多くのパラメータとより少ないデータを要することが分かり、データ制約環境における有望な候補となり得る。一様拡散モデルを10^{22} FLOPsで訓練し10Bパラメータまでスケールアップした結果、予測されたスケーリング特性が確認され、これは現在公開されている中で最大の一様拡散モデルとなった。
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs.
We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.