Génération d'images en deux étapes de haute-fidélité via distillation de bout en bout alignée sur l'enseignant

Résumé

La distillation de diffusion en peu d'étapes est devenue de plus en plus mature pour la génération en 4 à 8 étapes, mais aller au-delà jusqu'à 2 étapes reste un défi. Dans ce travail, nous présentons Z-Image Turbo++, un modèle de génération d'images en 2 étapes de haute qualité, distillé à partir du professeur Z-Image Turbo en 8 étapes. Notre méthode aborde les goulets d'étranglement centraux que sont l'augmentation de la difficulté de la tâche et la capacité limitée du modèle pour la génération en 2 étapes, grâce à trois choix de conception simples mais efficaces, adaptés à ce régime. Premièrement, nous proposons un Apprentissage Adversarial Aligné sur la Distribution, qui utilise des images générées par le professeur plutôt que des images réelles externes comme échantillons réels pour l'entraînement GAN, offrant une cible antagoniste plus accessible et plus informative. Deuxièmement, nous adoptons une Paramétrisation Découplée par Étapes, attribuant des paramètres de modèle indépendants aux deux étapes de débruitage afin de mieux correspondre à leurs besoins de capacité distincts. Troisièmement, nous effectuons un Entraînement de Bout en Bout avec Régularisation Itérative, permettant à la première étape de recevoir des gradients provenant de la qualité finale de l'image tout en préservant une génération intermédiaire significative via une perte explicite de l'étape 1. Ensemble, ces conceptions réduisent considérablement l'écart de qualité entre la génération en 2 étapes et celle en 8 étapes, tant dans les évaluations qualitatives que quantitatives, soulignant le potentiel de stratégies de distillation soigneusement adaptées pour améliorer le compromis qualité-efficacité dans la génération en peu d'étapes.

English

Few-step diffusion distillation has become increasingly mature for 4-8-step generation, yet pushing further to 2 steps remains challenging. In this work, we introduce Z-Image Turbo++, a high-quality 2-step image generation model distilled from the 8-step Z-Image Turbo teacher. Our method addresses the central bottlenecks of increased task difficulty and limited model capacity in 2-step generation through three simple but effective design choices tailored to this regime. First, we propose Distribution-Aligned Adversarial Learning, which uses teacher-generated images rather than external real images as real samples for GAN training, providing a more attainable and informative adversarial target. Second, we adopt Step-Decoupled Parameterization, assigning independent model parameters to the two denoising steps to better match their distinct capacity demands. Third, we perform End-to-End Training with Iterative Regularization, allowing the first step to receive gradients from final image quality while preserving a meaningful intermediate generation through an explicit step-1 loss. Together, these designs substantially narrow the quality gap between 2-step and 8-step generation in both qualitative and quantitative evaluations, highlighting the potential of carefully tailored distillation strategies for improving the quality-efficiency trade-off in few-step generation.