확산 이중성
The Diffusion Duality
June 12, 2025
저자: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI
초록
균일 상태 이산 확산 모델은 자가 수정 능력으로 인해 빠른 텍스트 생성을 가능케 할 잠재력을 지니고 있습니다. 그러나 이들은 일반적으로 자기회귀 모델과 마스크 확산 모델에 비해 성능이 떨어집니다. 본 연구에서는 이러한 성능 격차를 좁히기 위해 핵심 통찰을 활용합니다: 균일 상태 확산 과정은 근본적으로 가우시안 확산에서 자연스럽게 발생합니다. 우리의 방법인 Duo는 가우시안 확산의 강력한 기법을 전이하여 학습과 샘플링 모두를 개선합니다. 먼저, 가우시안 프로세스에 기반한 커리큘럼 학습 전략을 도입하여 분산을 줄임으로써 학습 속도를 두 배로 향상시킵니다. 커리큘럼 학습으로 훈련된 모델은 7개 벤치마크 중 3개에서 제로샷 복잡도 측면에서 자기회귀 모델을 능가합니다. 둘째, 연속 설정에서 이산 설정으로 일관성 증류를 적용한 이산 일관성 증류를 제시합니다. 이 알고리즘은 샘플링 속도를 두 배로 가속화함으로써 확산 언어 모델에서 소수 단계 생성을 가능하게 합니다. 프로젝트 페이지(http://s-sahoo.github.io/duo)에서 코드와 모델 체크포인트를 제공합니다.
English
Uniform-state discrete diffusion models hold the promise of fast text
generation due to their inherent ability to self-correct. However, they are
typically outperformed by autoregressive models and masked diffusion models. In
this work, we narrow this performance gap by leveraging a key insight:
Uniform-state diffusion processes naturally emerge from an underlying Gaussian
diffusion. Our method, Duo, transfers powerful techniques from Gaussian
diffusion to improve both training and sampling. First, we introduce a
curriculum learning strategy guided by the Gaussian process, doubling training
speed by reducing variance. Models trained with curriculum learning surpass
autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we
present Discrete Consistency Distillation, which adapts consistency
distillation from the continuous to the discrete setting. This algorithm
unlocks few-step generation in diffusion language models by accelerating
sampling by two orders of magnitude. We provide the code and model checkpoints
on the project page: http://s-sahoo.github.io/duo