TeEFusion: Fusione di Embedding Testuali per Distillare la Guida Senza Classificatore
TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
July 24, 2025
Autori: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Abstract
I recenti progressi nella sintesi di immagini da testo traggono grande beneficio da strategie di campionamento sofisticate e dalla guida senza classificatore (CFG) per garantire una generazione di alta qualità. Tuttavia, la dipendenza della CFG da due passaggi in avanti, specialmente se combinata con algoritmi di campionamento complessi, comporta costi di inferenza proibitivamente elevati. Per affrontare questo problema, introduciamo TeEFusion (Fusione di Embedding di Testo), un metodo di distillazione nuovo ed efficiente che incorpora direttamente l'entità della guida negli embedding di testo e distilla la complessa strategia di campionamento del modello insegnante. Semplicemente fondendo gli embedding di testo condizionali e incondizionali mediante operazioni lineari, TeEFusion ricostruisce la guida desiderata senza aggiungere parametri extra, consentendo contemporaneamente al modello studente di apprendere dall'output del modello insegnante prodotto attraverso il suo approccio di campionamento sofisticato. Esperimenti estesi su modelli all'avanguardia come SD3 dimostrano che il nostro metodo permette allo studente di imitare da vicino le prestazioni dell'insegnante con una strategia di campionamento molto più semplice ed efficiente. Di conseguenza, il modello studente raggiunge velocità di inferenza fino a 6 volte superiori rispetto al modello insegnante, mantenendo una qualità dell'immagine paragonabile a quella ottenuta attraverso l'approccio di campionamento complesso dell'insegnante. Il codice è disponibile pubblicamente all'indirizzo https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated
sampling strategies and classifier-free guidance (CFG) to ensure high-quality
generation. However, CFG's reliance on two forward passes, especially when
combined with intricate sampling algorithms, results in prohibitively high
inference costs. To address this, we introduce TeEFusion (Text
Embeddings Fusion), a novel and efficient distillation method
that directly incorporates the guidance magnitude into the text embeddings and
distills the teacher model's complex sampling strategy. By simply fusing
conditional and unconditional text embeddings using linear operations,
TeEFusion reconstructs the desired guidance without adding extra parameters,
simultaneously enabling the student model to learn from the teacher's output
produced via its sophisticated sampling approach. Extensive experiments on
state-of-the-art models such as SD3 demonstrate that our method allows the
student to closely mimic the teacher's performance with a far simpler and more
efficient sampling strategy. Consequently, the student model achieves inference
speeds up to 6times faster than the teacher model, while maintaining image
quality at levels comparable to those obtained through the teacher's complex
sampling approach. The code is publicly available at
https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.