Passagem Única: Codificador Unificado Independente do Tempo para Destilar Modelos de Difusão de Texto para Imagem

Resumo

Os modelos de difusão Text-to-Image (T2I) alcançaram avanços notáveis na modelagem generativa; no entanto, enfrentam um dilema entre velocidade de inferência e qualidade da imagem, o que representa desafios para uma implantação eficiente. Os modelos T2I destilados existentes podem gerar imagens de alta fidelidade com menos etapas de amostragem, mas frequentemente lutam com diversidade e qualidade, especialmente em modelos de uma única etapa. A partir de nossa análise, observamos cálculos redundantes nos codificadores UNet. Nossas descobertas sugerem que, para modelos de difusão T2I, os decodificadores são mais aptos a capturar informações semânticas mais ricas e explícitas, enquanto os codificadores podem ser compartilhados de forma eficaz entre decodificadores de diferentes etapas temporais. Com base nessas observações, introduzimos o primeiro Codificador Unificado Independente do Tempo (TiUE) para a arquitetura UNet do modelo estudante, que é uma abordagem de geração de imagens sem loops para destilar modelos de difusão T2I. Utilizando um esquema de passagem única, o TiUE compartilha características do codificador em várias etapas temporais do decodificador, permitindo amostragem paralela e reduzindo significativamente a complexidade do tempo de inferência. Além disso, incorporamos um termo de divergência KL para regularizar a previsão de ruído, o que melhora o realismo perceptivo e a diversidade das imagens geradas. Os resultados experimentais demonstram que o TiUE supera os métodos mais avançados, incluindo LCM, SD-Turbo e SwiftBrushv2, produzindo resultados mais diversos e realistas enquanto mantém a eficiência computacional.

English

Text-to-Image (T2I) diffusion models have made remarkable advancements in generative modeling; however, they face a trade-off between inference speed and image quality, posing challenges for efficient deployment. Existing distilled T2I models can generate high-fidelity images with fewer sampling steps, but often struggle with diversity and quality, especially in one-step models. From our analysis, we observe redundant computations in the UNet encoders. Our findings suggest that, for T2I diffusion models, decoders are more adept at capturing richer and more explicit semantic information, while encoders can be effectively shared across decoders from diverse time steps. Based on these observations, we introduce the first Time-independent Unified Encoder TiUE for the student model UNet architecture, which is a loop-free image generation approach for distilling T2I diffusion models. Using a one-pass scheme, TiUE shares encoder features across multiple decoder time steps, enabling parallel sampling and significantly reducing inference time complexity. In addition, we incorporate a KL divergence term to regularize noise prediction, which enhances the perceptual realism and diversity of the generated images. Experimental results demonstrate that TiUE outperforms state-of-the-art methods, including LCM, SD-Turbo, and SwiftBrushv2, producing more diverse and realistic results while maintaining the computational efficiency.

Passagem Única: Codificador Unificado Independente do Tempo para Destilar Modelos de Difusão de Texto para Imagem

One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

Resumo

Support