Distillation en Peu d'Étapes pour la Génération d'Images à Partir de Texte : Un Guide Pratique
Few-Step Distillation for Text-to-Image Generation: A Practical Guide
December 15, 2025
papers.authors: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI
papers.abstract
La distillation par diffusion a considérablement accéléré la synthèse d'images conditionnées par classe, mais son applicabilité à la génération ouverte texte-image (T2I) reste incertaine. Nous présentons la première étude systématique qui adapte et compare les techniques de distillation de pointe sur un modèle enseignant T2I performant, FLUX.1-lite. En reformulant les méthodes existantes dans un cadre unifié, nous identifions les principaux obstacles qui surviennent lors du passage d'étiquettes de classe discrètes à des invites linguistiques libres. Au-delà d'une analyse méthodologique approfondie, nous proposons des recommandations pratiques sur la mise à l'échelle des entrées, l'architecture du réseau et les hyperparamètres, accompagnées d'une implémentation open source et de modèles étudiants pré-entraînés. Nos résultats établissent une base solide pour le déploiement de générateurs de diffusion rapides, haute fidélité et économes en ressources dans les applications T2I réelles. Le code est disponible sur github.com/alibaba-damo-academy/T2I-Distill.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.