MLCM: Multistap Consistentiedistillatie van Latent Diffusiemodel
MLCM: Multistep Consistency Distillation of Latent Diffusion Model
June 9, 2024
Auteurs: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI
Samenvatting
Het destilleren van grote latente diffusiemodellen (LDMs) naar modellen die snel te bemonsteren zijn, trekt steeds meer onderzoeksinteresse. Echter, de meeste bestaande methoden kampen met een dilemma waarbij ze ofwel (i) afhankelijk zijn van meerdere individueel gedistilleerde modellen voor verschillende bemonsteringsbudgetten, ofwel (ii) de generatiekwaliteit opofferen bij beperkte (bijv. 2-4) en/of matige (bijv. 5-8) bemonsteringsstappen. Om dit aan te pakken, breiden we de recente multistep consistentie-distillatie (MCD) strategie uit naar representatieve LDMs, en introduceren we de Multistep Latent Consistency Models (MLCMs) aanpak voor kosteneffectieve, hoogwaardige beeldgeneratie. MLCM fungeert als een uniform model voor verschillende bemonsteringsstappen dankzij de belofte van MCD. We versterken MCD verder met een progressieve trainingsstrategie om de consistentie tussen segmenten te verbeteren, wat de kwaliteit van generaties met weinig stappen bevordert. We gebruiken de toestanden uit de bemonsteringspaden van het leraarmodel als trainingsdata voor MLCMs om de vereisten voor hoogwaardige trainingsdatasets te verlichten en om de kloof tussen de training en inferentie van het gedistilleerde model te overbruggen. MLCM is compatibel met voorkeursleerstrategieën voor verdere verbetering van de visuele kwaliteit en esthetische aantrekkingskracht. Empirisch gezien kan MLCM hoogwaardige, aantrekkelijke beelden genereren met slechts 2-8 bemonsteringsstappen. Op de MSCOCO-2017 5K benchmark behaalt MLCM, gedistilleerd uit SDXL, een CLIP Score van 33.30, een Aesthetic Score van 6.19, en een Image Reward van 1.20 met slechts 4 stappen, wat aanzienlijk beter is dan 4-staps LCM [23], 8-staps SDXL-Lightning [17], en 8-staps HyperSD [33]. We demonstreren ook de veelzijdigheid van MLCMs in toepassingen zoals controleerbare generatie, beeldstijloverdracht en Chinees-naar-beeld generatie.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to
sample from is attracting growing research interest. However, the majority of
existing methods face a dilemma where they either (i) depend on multiple
individual distilled models for different sampling budgets, or (ii) sacrifice
generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8)
sampling steps. To address these, we extend the recent multistep consistency
distillation (MCD) strategy to representative LDMs, establishing the Multistep
Latent Consistency Models (MLCMs) approach for low-cost high-quality image
synthesis. MLCM serves as a unified model for various sampling steps due to the
promise of MCD. We further augment MCD with a progressive training strategy to
strengthen inter-segment consistency to boost the quality of few-step
generations. We take the states from the sampling trajectories of the teacher
model as training data for MLCMs to lift the requirements for high-quality
training datasets and to bridge the gap between the training and inference of
the distilled model. MLCM is compatible with preference learning strategies for
further improvement of visual quality and aesthetic appeal. Empirically, MLCM
can generate high-quality, delightful images with only 2-8 sampling steps. On
the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of
33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps,
substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and
8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in
applications including controllable generation, image style transfer, and
Chinese-to-image generation.