ChatPaper.aiChatPaper

MLCM: Mehrschrittige Konsistenzdestillation des Latent Diffusion Modells

MLCM: Multistep Consistency Distillation of Latent Diffusion Model

June 9, 2024
Autoren: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI

Zusammenfassung

Die Destillation großer latenter Diffusionsmodelle (LDMs) in solche, aus denen schnell Proben entnommen werden können, erregt zunehmendes Forschungsinteresse. Allerdings stehen die meisten bestehenden Methoden vor einem Dilemma, bei dem sie entweder (i) von mehreren einzelnen destillierten Modellen abhängen, um unterschiedliche Probenahmebudgets zu bewältigen, oder (ii) die Generationsqualität mit begrenzten (z. B. 2-4) und/oder moderaten (z. B. 5-8) Probenahmeschritten opfern. Um diesen Herausforderungen zu begegnen, erweitern wir die kürzlich vorgestellte Mehrschritt-Konsistenzdestillationsstrategie (MCD) auf repräsentative LDMs und etablieren den Ansatz der Mehrschritt-Latenz-Konsistenzmodelle (MLCMs) für die kostengünstige und hochwertige Bildsynthese. MLCM dient als einheitliches Modell für verschiedene Probenahmeschritte aufgrund der vielversprechenden Eigenschaften von MCD. Wir erweitern MCD weiterhin um eine progressive Trainingstrategie, um die Zwischensegmentkonsistenz zu stärken und die Qualität von Generierungen mit wenigen Schritten zu verbessern. Wir verwenden die Zustände aus den Probenahmetrajektorien des Lehrmodells als Trainingsdaten für MLCMs, um die Anforderungen an hochwertige Trainingsdatensätze zu erhöhen und die Kluft zwischen dem Training und der Inferenz des destillierten Modells zu überbrücken. MLCM ist kompatibel mit Präferenzlernstrategien zur weiteren Verbesserung der visuellen Qualität und ästhetischen Anziehungskraft. Empirisch gesehen kann MLCM hochwertige, ansprechende Bilder mit nur 2-8 Probenahmeschritten generieren. Auf dem MSCOCO-2017-5K-Benchmark erzielt MLCM, das aus SDXL destilliert wurde, einen CLIP-Score von 33,30, einen ästhetischen Score von 6,19 und eine Bildbelohnung von 1,20 mit nur 4 Schritten und übertrifft damit deutlich den 4-Schritt-LCM [23], den 8-Schritt-SDXL-Lightning [17] und den 8-Schritt-HyperSD [33]. Wir zeigen auch die Vielseitigkeit von MLCMs in Anwendungen wie kontrollierter Generierung, Bildstiletransfer und chinesischer-zu-Bild-Generierung.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.

Summary

AI-Generated Summary

PDF130December 8, 2024