Geração de Imagens de Alta Fidelidade em Duas Etapas via Destilação de Ponta a Ponta Alinhada ao Professor

Resumo

A destilação de difusão em poucas etapas tornou-se cada vez mais madura para geração em 4 a 8 etapas, contudo, avançar para 2 etapas continua sendo desafiador. Neste trabalho, apresentamos o Z-Image Turbo++, um modelo de geração de imagens em 2 etapas de alta qualidade, destilado do professor Z-Image Turbo de 8 etapas. Nosso método aborda os gargalos centrais do aumento da dificuldade da tarefa e da capacidade limitada do modelo na geração em 2 etapas por meio de três escolhas de design simples, porém eficazes, adaptadas a esse regime. Primeiro, propomos o Aprendizado Adversarial Alinhado por Distribuição, que utiliza imagens geradas pelo professor, em vez de imagens reais externas, como amostras reais para o treinamento GAN, fornecendo um alvo adversarial mais acessível e informativo. Segundo, adotamos a Parametrização Desacoplada por Etapas, atribuindo parâmetros de modelo independentes às duas etapas de remoção de ruído para melhor atender às suas demandas distintas de capacidade. Terceiro, realizamos Treinamento Fim a Fim com Regularização Iterativa, permitindo que a primeira etapa receba gradientes da qualidade final da imagem, ao mesmo tempo que preserva uma geração intermediária significativa por meio de uma perda explícita da etapa 1. Juntos, esses designs reduzem substancialmente a lacuna de qualidade entre a geração em 2 e 8 etapas, tanto em avaliações qualitativas quanto quantitativas, destacando o potencial de estratégias de destilação cuidadosamente adaptadas para melhorar o equilíbrio entre qualidade e eficiência na geração em poucas etapas.

English

Few-step diffusion distillation has become increasingly mature for 4-8-step generation, yet pushing further to 2 steps remains challenging. In this work, we introduce Z-Image Turbo++, a high-quality 2-step image generation model distilled from the 8-step Z-Image Turbo teacher. Our method addresses the central bottlenecks of increased task difficulty and limited model capacity in 2-step generation through three simple but effective design choices tailored to this regime. First, we propose Distribution-Aligned Adversarial Learning, which uses teacher-generated images rather than external real images as real samples for GAN training, providing a more attainable and informative adversarial target. Second, we adopt Step-Decoupled Parameterization, assigning independent model parameters to the two denoising steps to better match their distinct capacity demands. Third, we perform End-to-End Training with Iterative Regularization, allowing the first step to receive gradients from final image quality while preserving a meaningful intermediate generation through an explicit step-1 loss. Together, these designs substantially narrow the quality gap between 2-step and 8-step generation in both qualitative and quantitative evaluations, highlighting the potential of carefully tailored distillation strategies for improving the quality-efficiency trade-off in few-step generation.