Praktische Anleitung zur Mehrstufigen Destillation für die Text-zu-Bild-Generierung
Few-Step Distillation for Text-to-Image Generation: A Practical Guide
December 15, 2025
papers.authors: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI
papers.abstract
Diffusionsdistillation hat die klassenkonditionierte Bildsynthese erheblich beschleunigt, doch ihre Anwendbarkeit auf die offene Text-zu-Bild (T2I)-Generierung ist nach wie vor unklar. Wir präsentieren die erste systematische Studie, die state-of-the-art Distillationstechniken auf ein starkes T2I-Lehrermodell, FLUX.1-lite, anpasst und vergleicht. Indem wir bestehende Methoden in einen einheitlichen Rahmen einordnen, identifizieren wir die Hauptprobleme, die beim Übergang von diskreten Klassenbezeichnungen zu freien Sprachprompts auftreten. Neben einer gründlichen methodischen Analyse bieten wir praktische Leitlinien zur Eingabeskalierung, Netzwerkarchitektur und Hyperparameteroptimierung, ergänzt durch eine Open-Source-Implementierung und vortrainierte Schülermodelle. Unsere Ergebnisse schaffen eine solide Grundlage für den Einsatz schneller, hochpräziser und ressourceneffizienter Diffusionsgeneratoren in realen T2I-Anwendungen. Der Code ist verfügbar unter github.com/alibaba-damo-academy/T2I-Distill.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.