Passagem Única: Codificador Unificado Independente do Tempo para Destilar Modelos de Difusão de Texto para Imagem
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models
May 28, 2025
Autores: Senmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang
cs.AI
Resumo
Os modelos de difusão Text-to-Image (T2I) alcançaram avanços notáveis na modelagem generativa; no entanto, enfrentam um dilema entre velocidade de inferência e qualidade da imagem, o que representa desafios para uma implantação eficiente. Os modelos T2I destilados existentes podem gerar imagens de alta fidelidade com menos etapas de amostragem, mas frequentemente lutam com diversidade e qualidade, especialmente em modelos de uma única etapa. A partir de nossa análise, observamos cálculos redundantes nos codificadores UNet. Nossas descobertas sugerem que, para modelos de difusão T2I, os decodificadores são mais aptos a capturar informações semânticas mais ricas e explícitas, enquanto os codificadores podem ser compartilhados de forma eficaz entre decodificadores de diferentes etapas temporais. Com base nessas observações, introduzimos o primeiro Codificador Unificado Independente do Tempo (TiUE) para a arquitetura UNet do modelo estudante, que é uma abordagem de geração de imagens sem loops para destilar modelos de difusão T2I. Utilizando um esquema de passagem única, o TiUE compartilha características do codificador em várias etapas temporais do decodificador, permitindo amostragem paralela e reduzindo significativamente a complexidade do tempo de inferência. Além disso, incorporamos um termo de divergência KL para regularizar a previsão de ruído, o que melhora o realismo perceptivo e a diversidade das imagens geradas. Os resultados experimentais demonstram que o TiUE supera os métodos mais avançados, incluindo LCM, SD-Turbo e SwiftBrushv2, produzindo resultados mais diversos e realistas enquanto mantém a eficiência computacional.
English
Text-to-Image (T2I) diffusion models have made remarkable advancements in
generative modeling; however, they face a trade-off between inference speed and
image quality, posing challenges for efficient deployment. Existing distilled
T2I models can generate high-fidelity images with fewer sampling steps, but
often struggle with diversity and quality, especially in one-step models. From
our analysis, we observe redundant computations in the UNet encoders. Our
findings suggest that, for T2I diffusion models, decoders are more adept at
capturing richer and more explicit semantic information, while encoders can be
effectively shared across decoders from diverse time steps. Based on these
observations, we introduce the first Time-independent Unified Encoder TiUE for
the student model UNet architecture, which is a loop-free image generation
approach for distilling T2I diffusion models. Using a one-pass scheme, TiUE
shares encoder features across multiple decoder time steps, enabling parallel
sampling and significantly reducing inference time complexity. In addition, we
incorporate a KL divergence term to regularize noise prediction, which enhances
the perceptual realism and diversity of the generated images. Experimental
results demonstrate that TiUE outperforms state-of-the-art methods, including
LCM, SD-Turbo, and SwiftBrushv2, producing more diverse and realistic results
while maintaining the computational efficiency.