ChatPaper.aiChatPaper

MLCM: Distilação de Consistência em Múltiplos Passos para Modelos de Difusão Latente

MLCM: Multistep Consistency Distillation of Latent Diffusion Model

June 9, 2024
Autores: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI

Resumo

A destilação de grandes modelos de difusão latente (LDMs) em modelos que são rápidos para amostragem está atraindo um interesse crescente na pesquisa. No entanto, a maioria dos métodos existentes enfrenta um dilema onde eles ou (i) dependem de múltiplos modelos destilados individuais para diferentes orçamentos de amostragem, ou (ii) sacrificam a qualidade da geração com um número limitado (por exemplo, 2-4) e/ou moderado (por exemplo, 5-8) de passos de amostragem. Para abordar esses problemas, estendemos a recente estratégia de destilação de consistência multistep (MCD) para LDMs representativos, estabelecendo a abordagem de Modelos de Consistência Latente Multistep (MLCMs) para síntese de imagens de alta qualidade e baixo custo. O MLCM serve como um modelo unificado para vários passos de amostragem devido à promessa do MCD. Além disso, aprimoramos o MCD com uma estratégia de treinamento progressivo para fortalecer a consistência entre segmentos e melhorar a qualidade das gerações com poucos passos. Utilizamos os estados das trajetórias de amostragem do modelo professor como dados de treinamento para os MLCMs, a fim de reduzir as exigências de conjuntos de dados de treinamento de alta qualidade e diminuir a lacuna entre o treinamento e a inferência do modelo destilado. O MLCM é compatível com estratégias de aprendizado de preferência para melhorar ainda mais a qualidade visual e o apelo estético. Empiricamente, o MLCM pode gerar imagens de alta qualidade e agradáveis com apenas 2-8 passos de amostragem. No benchmark MSCOCO-2017 5K, o MLCM destilado do SDXL obtém um CLIP Score de 33.30, um Aesthetic Score de 6.19 e um Image Reward de 1.20 com apenas 4 passos, superando substancialmente o LCM de 4 passos [23], o SDXL-Lightning de 8 passos [17] e o HyperSD de 8 passos [33]. Também demonstramos a versatilidade dos MLCMs em aplicações que incluem geração controlada, transferência de estilo de imagem e geração de imagens a partir de texto em chinês.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.
PDF130December 8, 2024