TeEFusion: Fusión de Incrustaciones de Texto para Destilar Guía Libre de Clasificadores
TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
July 24, 2025
Autores: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Resumen
Los avances recientes en la síntesis de texto a imagen se benefician en gran medida de estrategias de muestreo sofisticadas y de la guía sin clasificador (CFG, por sus siglas en inglés) para garantizar una generación de alta calidad. Sin embargo, la dependencia de CFG en dos pasadas hacia adelante, especialmente cuando se combina con algoritmos de muestreo complejos, resulta en costos de inferencia prohibitivamente altos. Para abordar este problema, presentamos TeEFusion (Fusión de Incrustaciones de Texto), un método novedoso y eficiente de destilación que incorpora directamente la magnitud de guía en las incrustaciones de texto y destila la estrategia de muestreo compleja del modelo maestro. Al fusionar simplemente las incrustaciones de texto condicionales e incondicionales mediante operaciones lineales, TeEFusion reconstruye la guía deseada sin añadir parámetros adicionales, permitiendo simultáneamente que el modelo estudiante aprenda de la salida del maestro producida a través de su enfoque de muestreo sofisticado. Experimentos exhaustivos en modelos de vanguardia como SD3 demuestran que nuestro método permite que el estudiante imite de cerca el rendimiento del maestro con una estrategia de muestreo mucho más simple y eficiente. En consecuencia, el modelo estudiante logra velocidades de inferencia hasta 6 veces más rápidas que el modelo maestro, manteniendo una calidad de imagen comparable a la obtenida mediante el enfoque de muestreo complejo del maestro. El código está disponible públicamente en https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated
sampling strategies and classifier-free guidance (CFG) to ensure high-quality
generation. However, CFG's reliance on two forward passes, especially when
combined with intricate sampling algorithms, results in prohibitively high
inference costs. To address this, we introduce TeEFusion (Text
Embeddings Fusion), a novel and efficient distillation method
that directly incorporates the guidance magnitude into the text embeddings and
distills the teacher model's complex sampling strategy. By simply fusing
conditional and unconditional text embeddings using linear operations,
TeEFusion reconstructs the desired guidance without adding extra parameters,
simultaneously enabling the student model to learn from the teacher's output
produced via its sophisticated sampling approach. Extensive experiments on
state-of-the-art models such as SD3 demonstrate that our method allows the
student to closely mimic the teacher's performance with a far simpler and more
efficient sampling strategy. Consequently, the student model achieves inference
speeds up to 6times faster than the teacher model, while maintaining image
quality at levels comparable to those obtained through the teacher's complex
sampling approach. The code is publicly available at
https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.