MLCM: Многошаговая дистилляция согласованности латентной модели диффузии
MLCM: Multistep Consistency Distillation of Latent Diffusion Model
June 9, 2024
Авторы: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI
Аннотация
Сокращение объемных моделей латентной диффузии (LDM) для ускорения процесса выборки привлекает все больший интерес исследователей. Однако большинство существующих методов сталкиваются с дилеммой, где либо (i) зависят от нескольких отдельных упрощенных моделей для различных бюджетов выборки, либо (ii) жертвуют качеством генерации при ограниченном (например, 2-4) и/или умеренном (например, 5-8) количестве шагов выборки. Для решения этих проблем мы расширяем недавнюю стратегию многошаговой консистентности дистилляции (MCD) на представительные LDM, устанавливая подход Многошаговых Моделей Латентной Консистентности (MLCM) для синтеза изображений высокого качества по низкой стоимости. MLCM служит объединенной моделью для различных шагов выборки благодаря потенциалу MCD. Мы дополняем MCD прогрессивной стратегией обучения для укрепления межсегментной консистентности для улучшения качества генерации на небольшом количестве шагов. Мы используем состояния из траекторий выборки модели-учителя в качестве обучающих данных для MLCM для снижения требований к обучающим наборам данных высокого качества и для сокращения разрыва между обучением и выводом упрощенной модели. MLCM совместим с стратегиями предпочтительного обучения для дальнейшего улучшения визуального качества и эстетического воздействия. Эмпирически MLCM способен генерировать изображения высокого качества с помощью всего 2-8 шагов выборки. На тестовом наборе MSCOCO-2017 5K MLCM, упрощенная из SDXL, получает CLIP Score 33.30, Aesthetic Score 6.19 и Image Reward 1.20 всего за 4 шага, значительно превосходя 4-шаговую LCM [23], 8-шаговую SDXL-Lightning [17] и 8-шаговую HyperSD [33]. Мы также демонстрируем универсальность MLCM в приложениях, включая контролируемую генерацию, перенос стиля изображения и генерацию изображений по китайскому тексту.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to
sample from is attracting growing research interest. However, the majority of
existing methods face a dilemma where they either (i) depend on multiple
individual distilled models for different sampling budgets, or (ii) sacrifice
generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8)
sampling steps. To address these, we extend the recent multistep consistency
distillation (MCD) strategy to representative LDMs, establishing the Multistep
Latent Consistency Models (MLCMs) approach for low-cost high-quality image
synthesis. MLCM serves as a unified model for various sampling steps due to the
promise of MCD. We further augment MCD with a progressive training strategy to
strengthen inter-segment consistency to boost the quality of few-step
generations. We take the states from the sampling trajectories of the teacher
model as training data for MLCMs to lift the requirements for high-quality
training datasets and to bridge the gap between the training and inference of
the distilled model. MLCM is compatible with preference learning strategies for
further improvement of visual quality and aesthetic appeal. Empirically, MLCM
can generate high-quality, delightful images with only 2-8 sampling steps. On
the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of
33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps,
substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and
8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in
applications including controllable generation, image style transfer, and
Chinese-to-image generation.Summary
AI-Generated Summary