Generación de imágenes de alta fidelidad en dos pasos mediante destilación de extremo a extremo alineada con el profesor
High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation
June 10, 2026
Autores: Dongyang Liu, Ruoyi Du, David Liu, Dengyang Jiang, Liangchen Li, Qilong Wu, Zhen Li, Steven C. H. Hoi, Hongsheng Li, Peng Gao
cs.AI
Resumen
La destilación de difusión de pocos pasos se ha vuelto cada vez más madura para la generación de 4 a 8 pasos, pero avanzar a 2 pasos sigue siendo un desafío. En este trabajo, presentamos Z-Image Turbo++, un modelo de generación de imágenes de 2 pasos de alta calidad destilado a partir del maestro Z-Image Turbo de 8 pasos. Nuestro método aborda los cuellos de botella centrales del aumento de la dificultad de la tarea y la capacidad limitada del modelo en la generación de 2 pasos mediante tres opciones de diseño simples pero efectivas adaptadas a este régimen. Primero, proponemos el Aprendizaje Adversarial Alineado con la Distribución, que utiliza imágenes generadas por el maestro en lugar de imágenes reales externas como muestras reales para el entrenamiento GAN, proporcionando un objetivo adversarial más alcanzable e informativo. Segundo, adoptamos la Parametrización Desacoplada por Pasos, asignando parámetros de modelo independientes a los dos pasos de eliminación de ruido para adaptarse mejor a sus distintas demandas de capacidad. Tercero, realizamos Entrenamiento de Extremo a Extremo con Regularización Iterativa, permitiendo que el primer paso reciba gradientes de la calidad final de la imagen mientras se preserva una generación intermedia significativa mediante una pérdida explícita del paso 1. En conjunto, estos diseños reducen sustancialmente la brecha de calidad entre la generación de 2 pasos y la de 8 pasos tanto en evaluaciones cualitativas como cuantitativas, destacando el potencial de las estrategias de destilación cuidadosamente adaptadas para mejorar el equilibrio entre calidad y eficiencia en la generación de pocos pasos.
English
Few-step diffusion distillation has become increasingly mature for 4-8-step generation, yet pushing further to 2 steps remains challenging. In this work, we introduce Z-Image Turbo++, a high-quality 2-step image generation model distilled from the 8-step Z-Image Turbo teacher. Our method addresses the central bottlenecks of increased task difficulty and limited model capacity in 2-step generation through three simple but effective design choices tailored to this regime. First, we propose Distribution-Aligned Adversarial Learning, which uses teacher-generated images rather than external real images as real samples for GAN training, providing a more attainable and informative adversarial target. Second, we adopt Step-Decoupled Parameterization, assigning independent model parameters to the two denoising steps to better match their distinct capacity demands. Third, we perform End-to-End Training with Iterative Regularization, allowing the first step to receive gradients from final image quality while preserving a meaningful intermediate generation through an explicit step-1 loss. Together, these designs substantially narrow the quality gap between 2-step and 8-step generation in both qualitative and quantitative evaluations, highlighting the potential of carefully tailored distillation strategies for improving the quality-efficiency trade-off in few-step generation.