Двойственность диффузии
The Diffusion Duality
June 12, 2025
Авторы: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI
Аннотация
Дискретные модели диффузии с равномерным состоянием обещают быструю генерацию текста благодаря их врожденной способности к самокоррекции. Однако они обычно уступают авторегрессивным моделям и моделям маскированной диффузии. В данной работе мы сокращаем этот разрыв в производительности, используя ключевое наблюдение: процессы диффузии с равномерным состоянием естественным образом возникают из базовой гауссовой диффузии. Наш метод, Duo, переносит мощные техники из гауссовой диффузии для улучшения как обучения, так и выборки. Во-первых, мы вводим стратегию обучения по учебному плану, управляемую гауссовым процессом, что удваивает скорость обучения за счет снижения дисперсии. Модели, обученные с использованием учебного плана, превосходят авторегрессивные модели по перплексии в условиях zero-shot на 3 из 7 тестовых наборов. Во-вторых, мы представляем метод дискретного согласованного дистилляции, который адаптирует дистилляцию согласованности из непрерывного в дискретный контекст. Этот алгоритм позволяет реализовать генерацию за несколько шагов в моделях диффузии для языка, ускоряя выборку на два порядка величины. Мы предоставляем код и контрольные точки модели на странице проекта: http://s-sahoo.github.io/duo.
English
Uniform-state discrete diffusion models hold the promise of fast text
generation due to their inherent ability to self-correct. However, they are
typically outperformed by autoregressive models and masked diffusion models. In
this work, we narrow this performance gap by leveraging a key insight:
Uniform-state diffusion processes naturally emerge from an underlying Gaussian
diffusion. Our method, Duo, transfers powerful techniques from Gaussian
diffusion to improve both training and sampling. First, we introduce a
curriculum learning strategy guided by the Gaussian process, doubling training
speed by reducing variance. Models trained with curriculum learning surpass
autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we
present Discrete Consistency Distillation, which adapts consistency
distillation from the continuous to the discrete setting. This algorithm
unlocks few-step generation in diffusion language models by accelerating
sampling by two orders of magnitude. We provide the code and model checkpoints
on the project page: http://s-sahoo.github.io/duo