Унифицированные непрерывные генеративные модели
Unified Continuous Generative Models
May 12, 2025
Авторы: Peng Sun, Yi Jiang, Tao Lin
cs.AI
Аннотация
Последние достижения в области непрерывных генеративных моделей, включая многошаговые подходы, такие как диффузия и согласование потоков (обычно требующие 8-1000 шагов выборки), и малошаговые методы, такие как модели согласованности (обычно 1-8 шагов), продемонстрировали впечатляющие результаты в генерации. Однако существующие работы часто рассматривают эти подходы как отдельные парадигмы, что приводит к различным методикам обучения и выборки. Мы представляем унифицированную структуру для обучения, выборки и анализа этих моделей. Наша реализация, Унифицированный Тренажер и Сэмплер для Непрерывных Генеративных Моделей (UCGM-{T,S}), достигает наилучших на сегодняшний день результатов. Например, на наборе данных ImageNet 256x256 с использованием диффузионного трансформера на 675 миллионов параметров, UCGM-T обучает многошаговую модель, достигающую 1.30 FID за 20 шагов, и малошаговую модель, достигающую 1.42 FID всего за 2 шага. Кроме того, применение UCGM-S к предварительно обученной модели (ранее 1.26 FID за 250 шагов) улучшает производительность до 1.06 FID всего за 40 шагов. Код доступен по адресу: https://github.com/LINs-lab/UCGM.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.Summary
AI-Generated Summary