SDXS: Модели латентной диффузии в реальном времени с условиями изображения
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
March 25, 2024
Авторы: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI
Аннотация
Недавние достижения в моделях диффузии вывели их на передовую позицию в области генерации изображений. Несмотря на их высокую производительность, модели диффузии не лишены недостатков; их сложные архитектуры и значительные вычислительные требования приводят к значительной задержке из-за итеративного процесса выборки. Для устранения этих ограничений мы предлагаем двойной подход, включающий миниатюризацию модели и сокращение шагов выборки с целью существенного снижения задержки модели. Наш метод использует дистилляцию знаний для оптимизации архитектур U-Net и декодера изображений, а также представляет инновационный метод обучения DM за один шаг, использующий сопоставление признаков и дистилляцию оценок. Мы представляем две модели, SDXS-512 и SDXS-1024, достигающие скорости вывода около 100 кадров в секунду (в 30 раз быстрее, чем SD v1.5) и 30 к/с (в 60 раз быстрее, чем SDXL) на одном графическом процессоре соответственно. Более того, наш метод обучения предлагает перспективные применения в управлении на основе изображений, облегчая эффективное преобразование изображения в изображение.
English
Recent advancements in diffusion models have positioned them at the forefront
of image generation. Despite their superior performance, diffusion models are
not without drawbacks; they are characterized by complex architectures and
substantial computational demands, resulting in significant latency due to
their iterative sampling process. To mitigate these limitations, we introduce a
dual approach involving model miniaturization and a reduction in sampling
steps, aimed at significantly decreasing model latency. Our methodology
leverages knowledge distillation to streamline the U-Net and image decoder
architectures, and introduces an innovative one-step DM training technique that
utilizes feature matching and score distillation. We present two models,
SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS
(30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU,
respectively. Moreover, our training approach offers promising applications in
image-conditioned control, facilitating efficient image-to-image translation.