テキストから画像生成のための数段蒸留:実践ガイド
Few-Step Distillation for Text-to-Image Generation: A Practical Guide
December 15, 2025
著者: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI
要旨
拡散蒸留はクラス条件付き画像合成を劇的に高速化したが、オープンエンドなテキストから画像への生成(T2I)への適用可能性は依然として不明確である。本論文は、強力なT2I教師モデルFLUX.1-liteにおいて、最先端の蒸留技術を適応・比較する初の体系的研究を提示する。既存手法を統一フレームワークに位置づけることで、離散的なクラスラベルから自由形式の言語プロンプトへ移行する際に生じる主要な障害を特定する。徹底的な方法論の分析に加えて、入力スケーリング、ネットワークアーキテクチャ、ハイパーパラメータに関する実践的な指針を、オープンソース実装および事前学習済み学生モデルと共に提供する。我々の知見は、現実世界のT2Iアプリケーションにおいて、高速で高忠実度、かつリソース効率の良い拡散生成器を展開するための強固な基盤を確立する。コードはgithub.com/alibaba-damo-academy/T2I-Distillで公開されている。
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.