MLCM: Distillazione della Consistenza Multistep per Modelli di Diffusione Latente

Abstract

La distillazione di grandi modelli di diffusione latente (LDMs) in modelli veloci da campionare sta attirando un crescente interesse di ricerca. Tuttavia, la maggior parte dei metodi esistenti si trova di fronte a un dilemma: o (i) dipendono da molteplici modelli distillati individuali per diversi budget di campionamento, o (ii) sacrificano la qualità della generazione con un numero limitato (ad esempio, 2-4) e/o moderato (ad esempio, 5-8) di passaggi di campionamento. Per affrontare questi problemi, estendiamo la recente strategia di distillazione multistep di consistenza (MCD) ai LDMs rappresentativi, stabilendo l'approccio dei Modelli di Consistenza Latente Multistep (MLCMs) per la sintesi di immagini di alta qualità a basso costo. MLCM funge da modello unificato per vari passaggi di campionamento grazie alla promessa della MCD. Inoltre, potenziamo la MCD con una strategia di addestramento progressivo per rafforzare la consistenza inter-segmento e migliorare la qualità delle generazioni con pochi passaggi. Utilizziamo gli stati provenienti dalle traiettorie di campionamento del modello insegnante come dati di addestramento per gli MLCMs, riducendo i requisiti per dataset di addestramento di alta qualità e colmando il divario tra l'addestramento e l'inferenza del modello distillato. MLCM è compatibile con strategie di apprendimento delle preferenze per un ulteriore miglioramento della qualità visiva e dell'appeal estetico. Empiricamente, MLCM è in grado di generare immagini di alta qualità e piacevoli con soli 2-8 passaggi di campionamento. Sul benchmark MSCOCO-2017 5K, MLCM distillato da SDXL ottiene un CLIP Score di 33.30, un Aesthetic Score di 6.19 e un Image Reward di 1.20 con soli 4 passaggi, superando sostanzialmente il 4-step LCM [23], l'8-step SDXL-Lightning [17] e l'8-step HyperSD [33]. Dimostriamo inoltre la versatilità degli MLCMs in applicazioni come la generazione controllata, il trasferimento di stile di immagini e la generazione di immagini da testo cinese.

English

Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.

MLCM: Distillazione della Consistenza Multistep per Modelli di Diffusione Latente

MLCM: Multistep Consistency Distillation of Latent Diffusion Model

Abstract

Support