확산 언어 모델은 최고 수준의 데이터 학습자입니다
Diffusion Language Models are Super Data Learners
November 5, 2025
저자: Jinjie Ni, Qian Liu, Longxu Dou, Chao Du, Zili Wang, Hang Yan, Tianyu Pang, Michael Qizhe Shieh
cs.AI
초록
엄격하게 통제된 사전 학습 설정에서 우리는 크로스오버 현상을 관찰한다: 고유 데이터가 제한적일 때, 확산 언어 모델(DLM)이 더 많은 에포크 동안 학습함으로써 자기회귀(AR) 모델을 지속적으로 능가한다. 이 크로스오버는 더 많거나 더 높은 품질의 데이터가 있을수록 더 늦게, 더 큰 모델일수록 더 일찍 발생하며, 조밀 및 희소 아키텍처 전반에 걸쳐 지속된다. 우리는 이러한 성능 향상을 세 가지 중첩 요인으로 귀결한다: (1) 임의 순서 모델링, (2) 반복적 양방향 잡음 제거로 인한 초고밀도 계산, 그리고 (3) 내장형 몬테카를로 증강; 입력 또는 매개변수 잡음은 데이터 제약 조건 하에서 AR 모델의 성능을 향상시키지만 그 격차를 완전히 메우지는 못한다. 규모 측면에서, 약 1.5T 토큰의 계산 예산으로 100억 개의 고유 Python 토큰에 대해 학습된 17B 매개변수 DLM은 엄격하게 동일한 설정으로 학습된 AR 코드 모델을 능가한다. 또한, 10억 매개변수 DLM은 특별한 기법 없이 표준 사전 학습 데이터를 반복 사용함으로써 10억 토큰만으로 HellaSwag에서 56% 이상, MMLU에서 33% 이상의 정확도를 달성한다. 우리는 또한 이 체제에서 검증 교차 엔트로피가 상승하는 것이 하위 작업 성능 저하를 의미하지는 않음을 보여준다.
English
Under strictly controlled pre-training settings, we observe a Crossover: when
unique data is limited, diffusion language models (DLMs) consistently surpass
autoregressive (AR) models by training for more epochs. The crossover shifts
later with more or higher-quality data, earlier with larger models, and
persists across dense and sparse architectures. We attribute the gains to three
compounding factors: (1) any-order modeling, (2) super-dense compute from
iterative bidirectional denoising, and (3) built-in Monte Carlo augmentation;
input or parameter noise improves AR under data constraint but cannot close the
gap. At scale, a 1.7B DLM trained with a ~1.5T-token compute budget on 10B
unique Python tokens overtakes an AR coder trained with strictly matched
settings. In addition, a 1B-parameter DLM achieves > 56% accuracy on HellaSwag
and > 33% on MMLU using only 1B tokens, without any special tricks, just by
repeating standard pre-training data. We also show that rising validation
cross-entropy does not imply degraded downstream performance in this regime.