ChatPaper.aiChatPaper

TeEFusion: Verschmelzung von Text-Embeddings zur Destillation von Classifier-Free Guidance

TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance

July 24, 2025
papers.authors: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

papers.abstract

Jüngste Fortschritte in der Text-zu-Bild-Synthese profitieren maßgeblich von ausgeklügelten Sampling-Strategien und dem sogenannten "Classifier-Free Guidance" (CFG), um eine hochwertige Generierung zu gewährleisten. Allerdings führt die Abhängigkeit von CFG von zwei Vorwärtsdurchläufen, insbesondere in Kombination mit komplexen Sampling-Algorithmen, zu unverhältnismäßig hohen Inferenzkosten. Um dies zu adressieren, stellen wir TeEFusion (Text Embeddings Fusion) vor, eine neuartige und effiziente Distillationsmethode, die die Führungsstärke direkt in die Text-Embeddings integriert und die komplexe Sampling-Strategie des Lehrermodells destilliert. Durch die einfache Fusion von bedingten und unbedingten Text-Embeddings mittels linearer Operationen rekonstruiert TeEFusion die gewünschte Führung, ohne zusätzliche Parameter hinzuzufügen, und ermöglicht gleichzeitig dem Schülermodell, von der Ausgabe des Lehrermodells zu lernen, die durch dessen ausgeklügelte Sampling-Strategie erzeugt wird. Umfangreiche Experimente mit modernsten Modellen wie SD3 zeigen, dass unsere Methode es dem Schülermodell ermöglicht, die Leistung des Lehrermodells eng nachzuahmen, jedoch mit einer weitaus einfacheren und effizienteren Sampling-Strategie. Folglich erreicht das Schülermodell Inferenzgeschwindigkeiten, die bis zu sechsmal schneller sind als die des Lehrermodells, bei gleichbleibender Bildqualität, die mit der durch die komplexe Sampling-Strategie des Lehrermodells erzielten vergleichbar ist. Der Code ist öffentlich verfügbar unter https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated sampling strategies and classifier-free guidance (CFG) to ensure high-quality generation. However, CFG's reliance on two forward passes, especially when combined with intricate sampling algorithms, results in prohibitively high inference costs. To address this, we introduce TeEFusion (Text Embeddings Fusion), a novel and efficient distillation method that directly incorporates the guidance magnitude into the text embeddings and distills the teacher model's complex sampling strategy. By simply fusing conditional and unconditional text embeddings using linear operations, TeEFusion reconstructs the desired guidance without adding extra parameters, simultaneously enabling the student model to learn from the teacher's output produced via its sophisticated sampling approach. Extensive experiments on state-of-the-art models such as SD3 demonstrate that our method allows the student to closely mimic the teacher's performance with a far simpler and more efficient sampling strategy. Consequently, the student model achieves inference speeds up to 6times faster than the teacher model, while maintaining image quality at levels comparable to those obtained through the teacher's complex sampling approach. The code is publicly available at https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
PDF72July 25, 2025