TeEFusion: Fusión de Incrustaciones de Texto para Destilar Guía Libre de Clasificadores

Resumen

Los avances recientes en la síntesis de texto a imagen se benefician en gran medida de estrategias de muestreo sofisticadas y de la guía sin clasificador (CFG, por sus siglas en inglés) para garantizar una generación de alta calidad. Sin embargo, la dependencia de CFG en dos pasadas hacia adelante, especialmente cuando se combina con algoritmos de muestreo complejos, resulta en costos de inferencia prohibitivamente altos. Para abordar este problema, presentamos TeEFusion (Fusión de Incrustaciones de Texto), un método novedoso y eficiente de destilación que incorpora directamente la magnitud de guía en las incrustaciones de texto y destila la estrategia de muestreo compleja del modelo maestro. Al fusionar simplemente las incrustaciones de texto condicionales e incondicionales mediante operaciones lineales, TeEFusion reconstruye la guía deseada sin añadir parámetros adicionales, permitiendo simultáneamente que el modelo estudiante aprenda de la salida del maestro producida a través de su enfoque de muestreo sofisticado. Experimentos exhaustivos en modelos de vanguardia como SD3 demuestran que nuestro método permite que el estudiante imite de cerca el rendimiento del maestro con una estrategia de muestreo mucho más simple y eficiente. En consecuencia, el modelo estudiante logra velocidades de inferencia hasta 6 veces más rápidas que el modelo maestro, manteniendo una calidad de imagen comparable a la obtenida mediante el enfoque de muestreo complejo del maestro. El código está disponible públicamente en https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.

English

Recent advances in text-to-image synthesis largely benefit from sophisticated sampling strategies and classifier-free guidance (CFG) to ensure high-quality generation. However, CFG's reliance on two forward passes, especially when combined with intricate sampling algorithms, results in prohibitively high inference costs. To address this, we introduce TeEFusion (Text Embeddings Fusion), a novel and efficient distillation method that directly incorporates the guidance magnitude into the text embeddings and distills the teacher model's complex sampling strategy. By simply fusing conditional and unconditional text embeddings using linear operations, TeEFusion reconstructs the desired guidance without adding extra parameters, simultaneously enabling the student model to learn from the teacher's output produced via its sophisticated sampling approach. Extensive experiments on state-of-the-art models such as SD3 demonstrate that our method allows the student to closely mimic the teacher's performance with a far simpler and more efficient sampling strategy. Consequently, the student model achieves inference speeds up to 6times faster than the teacher model, while maintaining image quality at levels comparable to those obtained through the teacher's complex sampling approach. The code is publicly available at https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.

TeEFusion: Fusión de Incrustaciones de Texto para Destilar Guía Libre de Clasificadores

TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance

Resumen

Support