TeEFusion : Fusion d'embeddings textuels pour distiller le guidage sans classifieur
TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
July 24, 2025
papers.authors: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
papers.abstract
Les récents progrès dans la synthèse d'images à partir de texte bénéficient largement de stratégies d'échantillonnage sophistiquées et de l'orientation sans classifieur (CFG) pour garantir une génération de haute qualité. Cependant, la dépendance de la CFG à deux passes avant, en particulier lorsqu'elle est combinée à des algorithmes d'échantillonnage complexes, entraîne des coûts d'inférence prohibitifs. Pour remédier à cela, nous introduisons TeEFusion (Fusion d'Empreintes Textuelles), une méthode de distillation novatrice et efficace qui intègre directement l'amplitude de guidage dans les empreintes textuelles et distille la stratégie d'échantillonnage complexe du modèle enseignant. En fusionnant simplement les empreintes textuelles conditionnelles et non conditionnelles à l'aide d'opérations linéaires, TeEFusion reconstruit le guidage souhaité sans ajouter de paramètres supplémentaires, tout en permettant au modèle étudiant d'apprendre à partir de la sortie du modèle enseignant produite via son approche d'échantillonnage sophistiquée. Des expériences approfondies sur des modèles de pointe tels que SD3 démontrent que notre méthode permet à l'étudiant de reproduire étroitement les performances de l'enseignant avec une stratégie d'échantillonnage beaucoup plus simple et efficace. Par conséquent, le modèle étudiant atteint des vitesses d'inférence jusqu'à 6 fois plus rapides que le modèle enseignant, tout en maintenant une qualité d'image comparable à celle obtenue grâce à l'approche d'échantillonnage complexe de l'enseignant. Le code est disponible publiquement à l'adresse https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated
sampling strategies and classifier-free guidance (CFG) to ensure high-quality
generation. However, CFG's reliance on two forward passes, especially when
combined with intricate sampling algorithms, results in prohibitively high
inference costs. To address this, we introduce TeEFusion (Text
Embeddings Fusion), a novel and efficient distillation method
that directly incorporates the guidance magnitude into the text embeddings and
distills the teacher model's complex sampling strategy. By simply fusing
conditional and unconditional text embeddings using linear operations,
TeEFusion reconstructs the desired guidance without adding extra parameters,
simultaneously enabling the student model to learn from the teacher's output
produced via its sophisticated sampling approach. Extensive experiments on
state-of-the-art models such as SD3 demonstrate that our method allows the
student to closely mimic the teacher's performance with a far simpler and more
efficient sampling strategy. Consequently, the student model achieves inference
speeds up to 6times faster than the teacher model, while maintaining image
quality at levels comparable to those obtained through the teacher's complex
sampling approach. The code is publicly available at
https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.