Biglietto di sola andata: Encoder unificato indipendente dal tempo per la distillazione di modelli di diffusione testo-immagine
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models
May 28, 2025
Autori: Senmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang
cs.AI
Abstract
I modelli di diffusione Text-to-Image (T2I) hanno compiuto progressi significativi nella modellazione generativa; tuttavia, devono affrontare un compromesso tra velocità di inferenza e qualità dell'immagine, ponendo sfide per un dispiegamento efficiente. I modelli T2I distillati esistenti possono generare immagini ad alta fedeltà con un numero ridotto di passaggi di campionamento, ma spesso incontrano difficoltà nella diversità e nella qualità, specialmente nei modelli a un solo passaggio. Dalla nostra analisi, osserviamo calcoli ridondanti negli encoder UNet. I nostri risultati suggeriscono che, per i modelli di diffusione T2I, i decoder sono più abili nel catturare informazioni semantiche più ricche ed esplicite, mentre gli encoder possono essere efficacemente condivisi tra decoder provenienti da diversi passaggi temporali. Sulla base di queste osservazioni, introduciamo il primo Time-independent Unified Encoder (TiUE) per l'architettura UNet del modello studente, che rappresenta un approccio alla generazione di immagini senza loop per la distillazione dei modelli di diffusione T2I. Utilizzando uno schema a passaggio unico, TiUE condivide le caratteristiche dell'encoder tra più passaggi temporali del decoder, consentendo un campionamento parallelo e riducendo significativamente la complessità temporale dell'inferenza. Inoltre, incorporiamo un termine di divergenza KL per regolarizzare la previsione del rumore, migliorando il realismo percettivo e la diversità delle immagini generate. I risultati sperimentali dimostrano che TiUE supera i metodi all'avanguardia, inclusi LCM, SD-Turbo e SwiftBrushv2, producendo risultati più diversificati e realistici mantenendo al contempo l'efficienza computazionale.
English
Text-to-Image (T2I) diffusion models have made remarkable advancements in
generative modeling; however, they face a trade-off between inference speed and
image quality, posing challenges for efficient deployment. Existing distilled
T2I models can generate high-fidelity images with fewer sampling steps, but
often struggle with diversity and quality, especially in one-step models. From
our analysis, we observe redundant computations in the UNet encoders. Our
findings suggest that, for T2I diffusion models, decoders are more adept at
capturing richer and more explicit semantic information, while encoders can be
effectively shared across decoders from diverse time steps. Based on these
observations, we introduce the first Time-independent Unified Encoder TiUE for
the student model UNet architecture, which is a loop-free image generation
approach for distilling T2I diffusion models. Using a one-pass scheme, TiUE
shares encoder features across multiple decoder time steps, enabling parallel
sampling and significantly reducing inference time complexity. In addition, we
incorporate a KL divergence term to regularize noise prediction, which enhances
the perceptual realism and diversity of the generated images. Experimental
results demonstrate that TiUE outperforms state-of-the-art methods, including
LCM, SD-Turbo, and SwiftBrushv2, producing more diverse and realistic results
while maintaining the computational efficiency.