Biglietto di sola andata: Encoder unificato indipendente dal tempo per la distillazione di modelli di diffusione testo-immagine

Abstract

I modelli di diffusione Text-to-Image (T2I) hanno compiuto progressi significativi nella modellazione generativa; tuttavia, devono affrontare un compromesso tra velocità di inferenza e qualità dell'immagine, ponendo sfide per un dispiegamento efficiente. I modelli T2I distillati esistenti possono generare immagini ad alta fedeltà con un numero ridotto di passaggi di campionamento, ma spesso incontrano difficoltà nella diversità e nella qualità, specialmente nei modelli a un solo passaggio. Dalla nostra analisi, osserviamo calcoli ridondanti negli encoder UNet. I nostri risultati suggeriscono che, per i modelli di diffusione T2I, i decoder sono più abili nel catturare informazioni semantiche più ricche ed esplicite, mentre gli encoder possono essere efficacemente condivisi tra decoder provenienti da diversi passaggi temporali. Sulla base di queste osservazioni, introduciamo il primo Time-independent Unified Encoder (TiUE) per l'architettura UNet del modello studente, che rappresenta un approccio alla generazione di immagini senza loop per la distillazione dei modelli di diffusione T2I. Utilizzando uno schema a passaggio unico, TiUE condivide le caratteristiche dell'encoder tra più passaggi temporali del decoder, consentendo un campionamento parallelo e riducendo significativamente la complessità temporale dell'inferenza. Inoltre, incorporiamo un termine di divergenza KL per regolarizzare la previsione del rumore, migliorando il realismo percettivo e la diversità delle immagini generate. I risultati sperimentali dimostrano che TiUE supera i metodi all'avanguardia, inclusi LCM, SD-Turbo e SwiftBrushv2, producendo risultati più diversificati e realistici mantenendo al contempo l'efficienza computazionale.

English

Text-to-Image (T2I) diffusion models have made remarkable advancements in generative modeling; however, they face a trade-off between inference speed and image quality, posing challenges for efficient deployment. Existing distilled T2I models can generate high-fidelity images with fewer sampling steps, but often struggle with diversity and quality, especially in one-step models. From our analysis, we observe redundant computations in the UNet encoders. Our findings suggest that, for T2I diffusion models, decoders are more adept at capturing richer and more explicit semantic information, while encoders can be effectively shared across decoders from diverse time steps. Based on these observations, we introduce the first Time-independent Unified Encoder TiUE for the student model UNet architecture, which is a loop-free image generation approach for distilling T2I diffusion models. Using a one-pass scheme, TiUE shares encoder features across multiple decoder time steps, enabling parallel sampling and significantly reducing inference time complexity. In addition, we incorporate a KL divergence term to regularize noise prediction, which enhances the perceptual realism and diversity of the generated images. Experimental results demonstrate that TiUE outperforms state-of-the-art methods, including LCM, SD-Turbo, and SwiftBrushv2, producing more diverse and realistic results while maintaining the computational efficiency.

Biglietto di sola andata: Encoder unificato indipendente dal tempo per la distillazione di modelli di diffusione testo-immagine

One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

Abstract

Support