MixFlow: Смешанные распределения источников улучшают выпрямленные потоки

Аннотация

Диффузионные модели и их вариации, такие как выпрямленные потоки, генерируют разнообразные и качественные изображения, но их по-прежнему ограничивает медленное итеративное сэмплирование, вызванное высокоизогнутыми генеративными траекториями, которые они изучают. Как показали предыдущие работы, важной причиной высокой кривизны является независимость между исходным распределением (стандартным гауссовым) и распределением данных. В данной работе мы преодолеваем это ограничение с помощью двух взаимодополняющих вкладов. Во-первых, мы пытаемся отказаться от предположения о стандартном гауссовом распределении, вводя κ-FC — общую формулировку, которая обусловливает исходное распределение произвольным сигналом κ, лучше согласующим его с распределением данных. Затем мы представляем MixFlow, простую, но эффективную стратегию обучения, которая снижает кривизну генеративных траекторий и существенно повышает эффективность сэмплирования. MixFlow обучает модель потока на линейных смесях фиксированного безусловного распределения и распределения на основе κ-FC. Эта простая смесь улучшает согласование между исходным и целевым распределением, обеспечивает лучшее качество генерации с меньшим количеством шагов сэмплирования и значительно ускоряет сходимость обучения. В среднем наша процедура обучения улучшает качество генерации на 12% по метрике FID по сравнению со стандартным выпрямленным потоком и на 7% по сравнению с предыдущими базовыми методами при фиксированном бюджете сэмплирования. Код доступен по адресу: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow: Смешанные распределения источников улучшают выпрямленные потоки

MixFlow: Mixed Source Distributions Improve Rectified Flows

Аннотация

Support