ChatPaper.aiChatPaper

SDXS: Модели латентной диффузии в реальном времени с условиями изображения

SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

March 25, 2024
Авторы: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI

Аннотация

Недавние достижения в моделях диффузии вывели их на передовую позицию в области генерации изображений. Несмотря на их высокую производительность, модели диффузии не лишены недостатков; их сложные архитектуры и значительные вычислительные требования приводят к значительной задержке из-за итеративного процесса выборки. Для устранения этих ограничений мы предлагаем двойной подход, включающий миниатюризацию модели и сокращение шагов выборки с целью существенного снижения задержки модели. Наш метод использует дистилляцию знаний для оптимизации архитектур U-Net и декодера изображений, а также представляет инновационный метод обучения DM за один шаг, использующий сопоставление признаков и дистилляцию оценок. Мы представляем две модели, SDXS-512 и SDXS-1024, достигающие скорости вывода около 100 кадров в секунду (в 30 раз быстрее, чем SD v1.5) и 30 к/с (в 60 раз быстрее, чем SDXL) на одном графическом процессоре соответственно. Более того, наш метод обучения предлагает перспективные применения в управлении на основе изображений, облегчая эффективное преобразование изображения в изображение.
English
Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.
PDF223December 15, 2024