이산 확산 언어 모델의 스케일링 거동
Scaling Behavior of Discrete Diffusion Language Models
December 11, 2025
저자: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI
초록
현대 대규모 언어 모델(LLM) 사전 학습은 방대한 양의 컴퓨팅 자원과 훈련 데이터를 소모하므로, 다양한 모델의 확장 성능 또는 확장 법칙(scaling laws)이 주요 차별화 요소로 작용합니다. 이산 확산 언어 모델(DLM)은 자기회귀 언어 모델(ALM)의 대안으로 제안되었으나, 그 확장 성능은 아직 충분히 연구되지 않았으며, 기존 연구에 따르면 DLM이 ALM과 동등한 성능을 달성하려면 더 많은 데이터와 컴퓨팅 자원이 필요할 수 있다고 합니다.
본 연구는 배치 크기 및 학습률과 같은 중요한 하이퍼파라미터를 세심하게 조정하면서, 마스킹 확산(masked diffusion)과 균일 확산(uniform diffusion) 사이를 매끄럽게 보간(interpolating)하여 다양한 노이즈 유형에 대한 DLM의 확장 성능을 분석합니다. 우리의 실험 결과, DLM의 확장 성능은 노이즈 유형에 크게 의존하며 ALM과는 상당히 다르다는 것을 보여줍니다. 모든 노이즈 유형이 컴퓨팅 자원이 제한된 조건의 확장(compute-bound scaling)에서는 유사한 손실 값에 수렴하지만, 컴퓨팅 효율적인 훈련(compute-efficient training)을 위해서는 마스킹 확산 대비 균일 확산이 더 많은 매개변수와 더 적은 데이터를 필요로 한다는 사실을 발견했습니다. 이는 데이터가 제한된 환경(data-bound settings)에서 균일 확산 모델이 매우 유망한 후보가 됨을 시사합니다. 우리는 균일 확산 모델을 10^{22} FLOPs까지 훈련시켜 100억 개의 매개변수로 확장하였으며, 이를 통해 예측된 확장 법칙을 확인하고 현재 공개된 가장 큰 규모의 균일 확산 모델을 구축했습니다.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs.
We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.