TeEFusion: Het mengen van tekstembeddingen voor het distilleren van classifier-vrije begeleiding
TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
July 24, 2025
Auteurs: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeld-synthese profiteert grotendeels van geavanceerde samplingstrategieën en classifier-free guidance (CFG) om hoogwaardige generatie te garanderen. Echter, de afhankelijkheid van CFG op twee forward passes, vooral in combinatie met ingewikkelde samplingalgoritmen, resulteert in onhoudbaar hoge inferentiekosten. Om dit aan te pakken, introduceren we TeEFusion (Text Embeddings Fusion), een nieuwe en efficiënte distillatiemethode die de begeleidingsgrootte direct in de tekst-embeddings integreert en de complexe samplingstrategie van het leraarmodel distilleert. Door eenvoudigweg conditionele en niet-conditionele tekst-embeddings te fuseren met behulp van lineaire operaties, reconstrueert TeEFusion de gewenste begeleiding zonder extra parameters toe te voegen, en stelt het tegelijkertijd het studentmodel in staat om te leren van de output van het leraarmodel die is geproduceerd via diens geavanceerde samplingbenadering. Uitgebreide experimenten op state-of-the-art modellen zoals SD3 tonen aan dat onze methode het studentmodel in staat stelt om de prestaties van het leraarmodel nauwkeurig na te bootsen met een veel eenvoudigere en efficiëntere samplingstrategie. Hierdoor bereikt het studentmodel inferentiesnelheden die tot 6 keer sneller zijn dan die van het leraarmodel, terwijl de beeldkwaliteit op niveaus blijft die vergelijkbaar zijn met die verkregen via de complexe samplingbenadering van het leraarmodel. De code is publiekelijk beschikbaar op https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated
sampling strategies and classifier-free guidance (CFG) to ensure high-quality
generation. However, CFG's reliance on two forward passes, especially when
combined with intricate sampling algorithms, results in prohibitively high
inference costs. To address this, we introduce TeEFusion (Text
Embeddings Fusion), a novel and efficient distillation method
that directly incorporates the guidance magnitude into the text embeddings and
distills the teacher model's complex sampling strategy. By simply fusing
conditional and unconditional text embeddings using linear operations,
TeEFusion reconstructs the desired guidance without adding extra parameters,
simultaneously enabling the student model to learn from the teacher's output
produced via its sophisticated sampling approach. Extensive experiments on
state-of-the-art models such as SD3 demonstrate that our method allows the
student to closely mimic the teacher's performance with a far simpler and more
efficient sampling strategy. Consequently, the student model achieves inference
speeds up to 6times faster than the teacher model, while maintaining image
quality at levels comparable to those obtained through the teacher's complex
sampling approach. The code is publicly available at
https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.