Distillazione in Pochi Passi per la Generazione di Immagini da Testo: Una Guida Pratica
Few-Step Distillation for Text-to-Image Generation: A Practical Guide
December 15, 2025
Autori: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI
Abstract
La distillazione per diffusione ha accelerato drasticamente la sintesi di immagini condizionate per classe, ma la sua applicabilità alla generazione testo-immagine (T2I) open-ended rimane poco chiara. Presentiamo il primo studio sistematico che adatta e confronta tecniche di distillazione allo stato dell'arte su un forte modello insegnante T2I, FLUX.1-lite. Inquadrando i metodi esistenti in un framework unificato, identifichiamo i principali ostacoli che emergono nel passaggio da etichette di classe discrete a prompt linguistici in linguaggio libero. Oltre a un'analisi metodologica approfondita, forniamo linee guida pratiche sul ridimensionamento degli input, l'architettura di rete e gli iperparametri, accompagnate da un'implementazione open-source e modelli studente pre-addestrati. I nostri risultati stabiliscono una solida base per l'implementazione di generatori per diffusione veloci, ad alta fedeltà e efficienti nelle risorse in applicazioni T2I del mondo reale. Il codice è disponibile su github.com/alibaba-damo-academy/T2I-Distill.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.