ChatPaper.aiChatPaper

MLCM: Distilación de Consistencia Multietapa para Modelos de Difusión Latente

MLCM: Multistep Consistency Distillation of Latent Diffusion Model

June 9, 2024
Autores: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI

Resumen

La destilación de grandes modelos de difusión latente (LDMs, por sus siglas en inglés) en modelos que permiten un muestreo rápido está atrayendo un creciente interés en la investigación. Sin embargo, la mayoría de los métodos existentes enfrentan un dilema en el que o bien (i) dependen de múltiples modelos destilados individuales para diferentes presupuestos de muestreo, o bien (ii) sacrifican la calidad de generación con un número limitado (por ejemplo, 2-4) y/o moderado (por ejemplo, 5-8) de pasos de muestreo. Para abordar estos problemas, extendemos la reciente estrategia de destilación de consistencia multietapa (MCD, por sus siglas en inglés) a LDMs representativos, estableciendo el enfoque de Modelos de Consistencia Latente Multietapa (MLCMs, por sus siglas en inglés) para la síntesis de imágenes de alta calidad y bajo costo. MLCM sirve como un modelo unificado para diversos pasos de muestreo debido a la promesa de MCD. Además, potenciamos MCD con una estrategia de entrenamiento progresivo para fortalecer la consistencia entre segmentos y mejorar la calidad de las generaciones con pocos pasos. Utilizamos los estados de las trayectorias de muestreo del modelo maestro como datos de entrenamiento para MLCMs, lo que reduce los requisitos de conjuntos de datos de entrenamiento de alta calidad y cierra la brecha entre el entrenamiento y la inferencia del modelo destilado. MLCM es compatible con estrategias de aprendizaje de preferencias para mejorar aún más la calidad visual y el atractivo estético. Empíricamente, MLCM puede generar imágenes de alta calidad y agradables con solo 2-8 pasos de muestreo. En el benchmark MSCOCO-2017 5K, MLCM destilado a partir de SDXL obtiene un CLIP Score de 33.30, un Aesthetic Score de 6.19 y un Image Reward de 1.20 con solo 4 pasos, superando sustancialmente a LCM de 4 pasos [23], SDXL-Lightning de 8 pasos [17] e HyperSD de 8 pasos [33]. También demostramos la versatilidad de MLCMs en aplicaciones que incluyen generación controlable, transferencia de estilo de imágenes y generación de imágenes a partir de texto en chino.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.

Summary

AI-Generated Summary

PDF130December 8, 2024