확산 이중성, 제 2장: Ψ-샘플러와 효율적 커리큘럼
The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum
February 24, 2026
저자: Justin Deschenaux, Caglar Gulcehre, Subham Sekhar Sahoo
cs.AI
초록
균일 상태 이산 확산 모델은 자기 수정 능력 덕분에 few-step 생성 및 guidance에서 뛰어나며, 이러한 설정에서 자기회귀 또는 마스크 확산 모델보다 선호됩니다. 그러나 ancestral sampler를 사용할 경우 샘플링 단계 수가 증가해도 생성 품질이 정체되는 한계가 있습니다. 본 연구에서는 기존 방법을 일반화하고 임의의 노이즈 과정에 적용 가능한 이산 확산용 Predictor-Corrector(PC) sampler 군을 제안합니다. 균일 상태 확산과 결합했을 때, 우리의 sampler는 언어 및 이미지 모델링 모두에서 ancestral sampling을 능가하며, OpenWebText에서 동일한 unigram entropy 대비 더 낮은 생성적 perplexity를, CIFAR10에서 더 나은 FID/IS 점수를 달성했습니다. 중요한 것은 기존 sampler와 달리 우리의 PC 방법은 샘플링 단계를 늘려도 지속적으로 성능이 향상된다는 점입니다. 이러한 결과는 마스크 확산이 확산 기반 언어 모델링의 필연적인 미래라는 가정에 의문을 제기합니다. 샘플링 외에도 Gaussian relaxation 훈련 단계를 위한 메모리 효율적인 curriculum을 개발하여, Duo 대비 훈련 시간을 25% 절감하고 메모리 사용량을 33% 줄이면서도 OpenWebText와 LM1B에서 비슷한 perplexity와 강력한 다운스트림 성능을 유지했습니다. 코드, 체크포인트 및 비디오 튜토리얼은 다음에서 공개합니다: https://s-sahoo.com/duo-ch2
English
Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2