TeEFusion: Verschmelzung von Text-Embeddings zur Destillation von Classifier-Free Guidance
TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
July 24, 2025
papers.authors: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
papers.abstract
Jüngste Fortschritte in der Text-zu-Bild-Synthese profitieren maßgeblich von ausgeklügelten Sampling-Strategien und dem sogenannten "Classifier-Free Guidance" (CFG), um eine hochwertige Generierung zu gewährleisten. Allerdings führt die Abhängigkeit von CFG von zwei Vorwärtsdurchläufen, insbesondere in Kombination mit komplexen Sampling-Algorithmen, zu unverhältnismäßig hohen Inferenzkosten. Um dies zu adressieren, stellen wir TeEFusion (Text Embeddings Fusion) vor, eine neuartige und effiziente Distillationsmethode, die die Führungsstärke direkt in die Text-Embeddings integriert und die komplexe Sampling-Strategie des Lehrermodells destilliert. Durch die einfache Fusion von bedingten und unbedingten Text-Embeddings mittels linearer Operationen rekonstruiert TeEFusion die gewünschte Führung, ohne zusätzliche Parameter hinzuzufügen, und ermöglicht gleichzeitig dem Schülermodell, von der Ausgabe des Lehrermodells zu lernen, die durch dessen ausgeklügelte Sampling-Strategie erzeugt wird. Umfangreiche Experimente mit modernsten Modellen wie SD3 zeigen, dass unsere Methode es dem Schülermodell ermöglicht, die Leistung des Lehrermodells eng nachzuahmen, jedoch mit einer weitaus einfacheren und effizienteren Sampling-Strategie. Folglich erreicht das Schülermodell Inferenzgeschwindigkeiten, die bis zu sechsmal schneller sind als die des Lehrermodells, bei gleichbleibender Bildqualität, die mit der durch die komplexe Sampling-Strategie des Lehrermodells erzielten vergleichbar ist. Der Code ist öffentlich verfügbar unter https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated
sampling strategies and classifier-free guidance (CFG) to ensure high-quality
generation. However, CFG's reliance on two forward passes, especially when
combined with intricate sampling algorithms, results in prohibitively high
inference costs. To address this, we introduce TeEFusion (Text
Embeddings Fusion), a novel and efficient distillation method
that directly incorporates the guidance magnitude into the text embeddings and
distills the teacher model's complex sampling strategy. By simply fusing
conditional and unconditional text embeddings using linear operations,
TeEFusion reconstructs the desired guidance without adding extra parameters,
simultaneously enabling the student model to learn from the teacher's output
produced via its sophisticated sampling approach. Extensive experiments on
state-of-the-art models such as SD3 demonstrate that our method allows the
student to closely mimic the teacher's performance with a far simpler and more
efficient sampling strategy. Consequently, the student model achieves inference
speeds up to 6times faster than the teacher model, while maintaining image
quality at levels comparable to those obtained through the teacher's complex
sampling approach. The code is publicly available at
https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.