ChatPaper.aiChatPaper

TeEFusion: Смешивание текстовых эмбеддингов для дистилляции классификатор-независимого управления

TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance

July 24, 2025
Авторы: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

Аннотация

Последние достижения в синтезе изображений из текста во многом обусловлены использованием сложных стратегий сэмплинга и метода свободного от классификатора управления (CFG), что обеспечивает высокое качество генерации. Однако зависимость CFG от двух прямых проходов, особенно в сочетании с изощренными алгоритмами сэмплинга, приводит к чрезмерно высоким затратам на вывод. Для решения этой проблемы мы представляем TeEFusion (Text Embeddings Fusion) — новый и эффективный метод дистилляции, который напрямую интегрирует величину управления в текстовые эмбеддинги и дистиллирует сложную стратегию сэмплинга учительской модели. Просто объединяя условные и безусловные текстовые эмбеддинги с помощью линейных операций, TeEFusion воссоздает необходимое управление без добавления дополнительных параметров, одновременно позволяя ученической модели обучаться на выходных данных учительской модели, полученных с использованием её сложного подхода к сэмплингу. Многочисленные эксперименты на передовых моделях, таких как SD3, демонстрируют, что наш метод позволяет ученической модели близко воспроизводить производительность учительской модели с гораздо более простой и эффективной стратегией сэмплинга. В результате ученическая модель достигает скорости вывода до 6 раз быстрее, чем учительская модель, при этом сохраняя качество изображений на уровне, сопоставимом с результатами, полученными с использованием сложного подхода к сэмплингу учительской модели. Код доступен публично по адресу https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated sampling strategies and classifier-free guidance (CFG) to ensure high-quality generation. However, CFG's reliance on two forward passes, especially when combined with intricate sampling algorithms, results in prohibitively high inference costs. To address this, we introduce TeEFusion (Text Embeddings Fusion), a novel and efficient distillation method that directly incorporates the guidance magnitude into the text embeddings and distills the teacher model's complex sampling strategy. By simply fusing conditional and unconditional text embeddings using linear operations, TeEFusion reconstructs the desired guidance without adding extra parameters, simultaneously enabling the student model to learn from the teacher's output produced via its sophisticated sampling approach. Extensive experiments on state-of-the-art models such as SD3 demonstrate that our method allows the student to closely mimic the teacher's performance with a far simpler and more efficient sampling strategy. Consequently, the student model achieves inference speeds up to 6times faster than the teacher model, while maintaining image quality at levels comparable to those obtained through the teacher's complex sampling approach. The code is publicly available at https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
PDF72July 25, 2025