Billete de ida: Codificador unificado independiente del tiempo para la destilación de modelos de difusión de texto a imagen
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models
May 28, 2025
Autores: Senmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang
cs.AI
Resumen
Los modelos de difusión Texto-Imagen (T2I) han logrado avances notables en el modelado generativo; sin embargo, enfrentan un compromiso entre la velocidad de inferencia y la calidad de la imagen, lo que plantea desafíos para su implementación eficiente. Los modelos T2I destilados existentes pueden generar imágenes de alta fidelidad con menos pasos de muestreo, pero a menudo luchan con la diversidad y la calidad, especialmente en los modelos de un solo paso. A partir de nuestro análisis, observamos cálculos redundantes en los codificadores UNet. Nuestros hallazgos sugieren que, para los modelos de difusión T2I, los decodificadores son más hábiles para capturar información semántica más rica y explícita, mientras que los codificadores pueden compartirse eficazmente entre decodificadores de diversos pasos temporales. Basándonos en estas observaciones, presentamos el primer Codificador Unificado Independiente del Tiempo (TiUE) para la arquitectura UNet del modelo estudiante, que es un enfoque de generación de imágenes sin bucles para destilar modelos de difusión T2I. Utilizando un esquema de un solo paso, TiUE comparte características del codificador en múltiples pasos temporales del decodificador, permitiendo un muestreo paralelo y reduciendo significativamente la complejidad del tiempo de inferencia. Además, incorporamos un término de divergencia KL para regularizar la predicción de ruido, lo que mejora el realismo perceptual y la diversidad de las imágenes generadas. Los resultados experimentales demuestran que TiUE supera a los métodos más avanzados, incluyendo LCM, SD-Turbo y SwiftBrushv2, produciendo resultados más diversos y realistas mientras mantiene la eficiencia computacional.
English
Text-to-Image (T2I) diffusion models have made remarkable advancements in
generative modeling; however, they face a trade-off between inference speed and
image quality, posing challenges for efficient deployment. Existing distilled
T2I models can generate high-fidelity images with fewer sampling steps, but
often struggle with diversity and quality, especially in one-step models. From
our analysis, we observe redundant computations in the UNet encoders. Our
findings suggest that, for T2I diffusion models, decoders are more adept at
capturing richer and more explicit semantic information, while encoders can be
effectively shared across decoders from diverse time steps. Based on these
observations, we introduce the first Time-independent Unified Encoder TiUE for
the student model UNet architecture, which is a loop-free image generation
approach for distilling T2I diffusion models. Using a one-pass scheme, TiUE
shares encoder features across multiple decoder time steps, enabling parallel
sampling and significantly reducing inference time complexity. In addition, we
incorporate a KL divergence term to regularize noise prediction, which enhances
the perceptual realism and diversity of the generated images. Experimental
results demonstrate that TiUE outperforms state-of-the-art methods, including
LCM, SD-Turbo, and SwiftBrushv2, producing more diverse and realistic results
while maintaining the computational efficiency.Summary
AI-Generated Summary