Hochtreue Zwei-Schritt-Bildgenerierung durch lehrerausgerichtete Ende-zu-Ende-Destillation

Zusammenfassung

Die Diffusionsdestillation in wenigen Schritten hat sich für die Erzeugung in 4–8 Schritten zunehmend etabliert, doch eine weitere Reduzierung auf 2 Schritte bleibt herausfordernd. In dieser Arbeit stellen wir Z-Image Turbo++ vor, ein qualitativ hochwertiges 2-Schritt-Bildgenerierungsmodell, das aus dem 8-Schritt-Z-Image-Turbo-Lehrermodell destilliert wurde. Unsere Methode adressiert die zentralen Engpässe der erhöhten Aufgabenschwierigkeit und der begrenzten Modellkapazität bei der 2-Schritt-Generierung durch drei einfache, aber effektive Designentscheidungen, die auf dieses Regime zugeschnitten sind. Erstens schlagen wir verteilungsangepasstes kontradiktorisches Lernen vor, bei dem vom Lehrer erzeugte Bilder anstelle externer realer Bilder als echte Stichproben für das GAN-Training verwendet werden, was ein erreichbareres und informatives kontradiktorisches Ziel bietet. Zweitens übernehmen wir eine schrittentkoppelte Parametrisierung, die den beiden Denoisingschritten unabhängige Modellparameter zuweist, um ihren unterschiedlichen Kapazitätsanforderungen besser gerecht zu werden. Drittens führen wir ein End-to-End-Training mit iterativer Regularisierung durch, das es dem ersten Schritt ermöglicht, Gradienten aus der endgültigen Bildqualität zu erhalten, während durch einen expliziten Schritt-1-Verlust eine sinnvolle Zwischenerzeugung erhalten bleibt. Zusammen verringern diese Designs die Qualitätslücke zwischen 2-Schritt- und 8-Schritt-Generierung sowohl in qualitativen als auch quantitativen Bewertungen erheblich und unterstreichen das Potenzial maßgeschneiderter Destillationsstrategien zur Verbesserung des Qualitäts-Effizienz-Kompromisses bei der Generierung in wenigen Schritten.

English

Few-step diffusion distillation has become increasingly mature for 4-8-step generation, yet pushing further to 2 steps remains challenging. In this work, we introduce Z-Image Turbo++, a high-quality 2-step image generation model distilled from the 8-step Z-Image Turbo teacher. Our method addresses the central bottlenecks of increased task difficulty and limited model capacity in 2-step generation through three simple but effective design choices tailored to this regime. First, we propose Distribution-Aligned Adversarial Learning, which uses teacher-generated images rather than external real images as real samples for GAN training, providing a more attainable and informative adversarial target. Second, we adopt Step-Decoupled Parameterization, assigning independent model parameters to the two denoising steps to better match their distinct capacity demands. Third, we perform End-to-End Training with Iterative Regularization, allowing the first step to receive gradients from final image quality while preserving a meaningful intermediate generation through an explicit step-1 loss. Together, these designs substantially narrow the quality gap between 2-step and 8-step generation in both qualitative and quantitative evaluations, highlighting the potential of carefully tailored distillation strategies for improving the quality-efficiency trade-off in few-step generation.