Destilação em Poucos Passos para Geração de Imagens a Partir de Texto: Um Guia Prático
Few-Step Distillation for Text-to-Image Generation: A Practical Guide
December 15, 2025
Autores: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI
Resumo
A destilação por difusão acelerou dramaticamente a síntese de imagens condicionadas por classe, mas sua aplicabilidade à geração aberta de texto para imagem (T2I) ainda não é clara. Apresentamos o primeiro estudo sistemático que adapta e compara técnicas de destilação de última geração em um forte modelo professor de T2I, o FLUX.1-lite. Ao enquadrar os métodos existentes em uma estrutura unificada, identificamos os principais obstáculos que surgem ao passar de rótulos de classe discretos para prompts de linguagem livre. Além de uma análise metodológica minuciosa, oferecemos diretrizes práticas sobre dimensionamento de entrada, arquitetura de rede e hiperparâmetros, acompanhadas por uma implementação de código aberto e modelos estudante pré-treinados. Nossas descobertas estabelecem uma base sólida para a implantação de geradores de difusão rápidos, de alta fidelidade e eficientes em recursos em aplicações reais de T2I. O código está disponível em github.com/alibaba-damo-academy/T2I-Distill.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.