ChatPaper.aiChatPaper

MLCM : Distillation de cohérence multi-étapes pour les modèles de diffusion latente

MLCM: Multistep Consistency Distillation of Latent Diffusion Model

June 9, 2024
Auteurs: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI

Résumé

La distillation de grands modèles de diffusion latente (LDMs) en des modèles rapides à échantillonner suscite un intérêt croissant dans la recherche. Cependant, la majorité des méthodes existantes se heurtent à un dilemme : elles dépendent soit (i) de plusieurs modèles distillés individuels pour différents budgets d'échantillonnage, soit (ii) sacrifient la qualité de génération avec un nombre limité (par exemple, 2-4) et/ou modéré (par exemple, 5-8) d'étapes d'échantillonnage. Pour résoudre ces problèmes, nous étendons la stratégie récente de distillation de cohérence multi-étapes (MCD) aux LDMs représentatifs, établissant ainsi l'approche des Modèles de Cohérence Latente Multi-Étapes (MLCMs) pour la synthèse d'images de haute qualité à faible coût. MLCM sert de modèle unifié pour diverses étapes d'échantillonnage grâce à la promesse de MCD. Nous renforçons en outre MCD avec une stratégie d'entraînement progressive pour améliorer la cohérence inter-segments et ainsi booster la qualité des générations en peu d'étapes. Nous utilisons les états des trajectoires d'échantillonnage du modèle enseignant comme données d'entraînement pour les MLCMs afin de réduire les exigences en matière de jeux de données d'entraînement de haute qualité et de combler l'écart entre l'entraînement et l'inférence du modèle distillé. MLCM est compatible avec les stratégies d'apprentissage par préférence pour améliorer davantage la qualité visuelle et l'attrait esthétique. Empiriquement, MLCM peut générer des images de haute qualité et agréables avec seulement 2 à 8 étapes d'échantillonnage. Sur le benchmark MSCOCO-2017 5K, MLCM distillé à partir de SDXL obtient un score CLIP de 33,30, un score esthétique de 6,19 et une récompense d'image de 1,20 avec seulement 4 étapes, surpassant largement le LCM à 4 étapes [23], SDXL-Lightning à 8 étapes [17] et HyperSD à 8 étapes [33]. Nous démontrons également la polyvalence des MLCMs dans des applications incluant la génération contrôlée, le transfert de style d'image et la génération d'images à partir de texte chinois.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.

Summary

AI-Generated Summary

PDF130December 8, 2024