Billete de ida: Codificador unificado independiente del tiempo para la destilación de modelos de difusión de texto a imagen

Resumen

Los modelos de difusión Texto-Imagen (T2I) han logrado avances notables en el modelado generativo; sin embargo, enfrentan un compromiso entre la velocidad de inferencia y la calidad de la imagen, lo que plantea desafíos para su implementación eficiente. Los modelos T2I destilados existentes pueden generar imágenes de alta fidelidad con menos pasos de muestreo, pero a menudo luchan con la diversidad y la calidad, especialmente en los modelos de un solo paso. A partir de nuestro análisis, observamos cálculos redundantes en los codificadores UNet. Nuestros hallazgos sugieren que, para los modelos de difusión T2I, los decodificadores son más hábiles para capturar información semántica más rica y explícita, mientras que los codificadores pueden compartirse eficazmente entre decodificadores de diversos pasos temporales. Basándonos en estas observaciones, presentamos el primer Codificador Unificado Independiente del Tiempo (TiUE) para la arquitectura UNet del modelo estudiante, que es un enfoque de generación de imágenes sin bucles para destilar modelos de difusión T2I. Utilizando un esquema de un solo paso, TiUE comparte características del codificador en múltiples pasos temporales del decodificador, permitiendo un muestreo paralelo y reduciendo significativamente la complejidad del tiempo de inferencia. Además, incorporamos un término de divergencia KL para regularizar la predicción de ruido, lo que mejora el realismo perceptual y la diversidad de las imágenes generadas. Los resultados experimentales demuestran que TiUE supera a los métodos más avanzados, incluyendo LCM, SD-Turbo y SwiftBrushv2, produciendo resultados más diversos y realistas mientras mantiene la eficiencia computacional.

English

Text-to-Image (T2I) diffusion models have made remarkable advancements in generative modeling; however, they face a trade-off between inference speed and image quality, posing challenges for efficient deployment. Existing distilled T2I models can generate high-fidelity images with fewer sampling steps, but often struggle with diversity and quality, especially in one-step models. From our analysis, we observe redundant computations in the UNet encoders. Our findings suggest that, for T2I diffusion models, decoders are more adept at capturing richer and more explicit semantic information, while encoders can be effectively shared across decoders from diverse time steps. Based on these observations, we introduce the first Time-independent Unified Encoder TiUE for the student model UNet architecture, which is a loop-free image generation approach for distilling T2I diffusion models. Using a one-pass scheme, TiUE shares encoder features across multiple decoder time steps, enabling parallel sampling and significantly reducing inference time complexity. In addition, we incorporate a KL divergence term to regularize noise prediction, which enhances the perceptual realism and diversity of the generated images. Experimental results demonstrate that TiUE outperforms state-of-the-art methods, including LCM, SD-Turbo, and SwiftBrushv2, producing more diverse and realistic results while maintaining the computational efficiency.

Billete de ida: Codificador unificado independiente del tiempo para la destilación de modelos de difusión de texto a imagen

One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

Resumen

Support