TeEFusion: Fusione di Embedding Testuali per Distillare la Guida Senza Classificatore

Abstract

I recenti progressi nella sintesi di immagini da testo traggono grande beneficio da strategie di campionamento sofisticate e dalla guida senza classificatore (CFG) per garantire una generazione di alta qualità. Tuttavia, la dipendenza della CFG da due passaggi in avanti, specialmente se combinata con algoritmi di campionamento complessi, comporta costi di inferenza proibitivamente elevati. Per affrontare questo problema, introduciamo TeEFusion (Fusione di Embedding di Testo), un metodo di distillazione nuovo ed efficiente che incorpora direttamente l'entità della guida negli embedding di testo e distilla la complessa strategia di campionamento del modello insegnante. Semplicemente fondendo gli embedding di testo condizionali e incondizionali mediante operazioni lineari, TeEFusion ricostruisce la guida desiderata senza aggiungere parametri extra, consentendo contemporaneamente al modello studente di apprendere dall'output del modello insegnante prodotto attraverso il suo approccio di campionamento sofisticato. Esperimenti estesi su modelli all'avanguardia come SD3 dimostrano che il nostro metodo permette allo studente di imitare da vicino le prestazioni dell'insegnante con una strategia di campionamento molto più semplice ed efficiente. Di conseguenza, il modello studente raggiunge velocità di inferenza fino a 6 volte superiori rispetto al modello insegnante, mantenendo una qualità dell'immagine paragonabile a quella ottenuta attraverso l'approccio di campionamento complesso dell'insegnante. Il codice è disponibile pubblicamente all'indirizzo https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.

English

Recent advances in text-to-image synthesis largely benefit from sophisticated sampling strategies and classifier-free guidance (CFG) to ensure high-quality generation. However, CFG's reliance on two forward passes, especially when combined with intricate sampling algorithms, results in prohibitively high inference costs. To address this, we introduce TeEFusion (Text Embeddings Fusion), a novel and efficient distillation method that directly incorporates the guidance magnitude into the text embeddings and distills the teacher model's complex sampling strategy. By simply fusing conditional and unconditional text embeddings using linear operations, TeEFusion reconstructs the desired guidance without adding extra parameters, simultaneously enabling the student model to learn from the teacher's output produced via its sophisticated sampling approach. Extensive experiments on state-of-the-art models such as SD3 demonstrate that our method allows the student to closely mimic the teacher's performance with a far simpler and more efficient sampling strategy. Consequently, the student model achieves inference speeds up to 6times faster than the teacher model, while maintaining image quality at levels comparable to those obtained through the teacher's complex sampling approach. The code is publicly available at https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.

TeEFusion: Fusione di Embedding Testuali per Distillare la Guida Senza Classificatore

TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance

Abstract

Support