ChatPaper.aiChatPaper

Destilación en Pocos Pasos para la Generación de Imágenes a partir de Texto: Una Guía Práctica

Few-Step Distillation for Text-to-Image Generation: A Practical Guide

December 15, 2025
Autores: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI

Resumen

La destilación por difusión ha acelerado drásticamente la síntesis de imágenes condicionadas por clase, pero su aplicabilidad a la generación abierta de texto a imagen (T2I) sigue sin estar clara. Presentamos el primer estudio sistemático que adapta y compara técnicas de destilación de vanguardia en un modelo docente T2I robusto, FLUX.1-lite. Al enmarcar los métodos existentes en un marco unificado, identificamos los obstáculos clave que surgen al pasar de etiquetas de clase discretas a instrucciones lingüísticas de forma libre. Más allá de un análisis metodológico exhaustivo, ofrecemos pautas prácticas sobre escalado de entrada, arquitectura de red e hiperparámetros, acompañadas de una implementación de código abierto y modelos estudiantiles preentrenados. Nuestros hallazgos establecen una base sólida para implementar generadores de difusión rápidos, de alta fidelidad y eficientes en recursos en aplicaciones T2I del mundo real. El código está disponible en github.com/alibaba-damo-academy/T2I-Distill.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.
PDF42December 17, 2025