TeEFusion: Смешивание текстовых эмбеддингов для дистилляции классификатор-независимого управления
TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
July 24, 2025
Авторы: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Аннотация
Последние достижения в синтезе изображений из текста во многом обусловлены использованием сложных стратегий сэмплинга и метода свободного от классификатора управления (CFG), что обеспечивает высокое качество генерации. Однако зависимость CFG от двух прямых проходов, особенно в сочетании с изощренными алгоритмами сэмплинга, приводит к чрезмерно высоким затратам на вывод. Для решения этой проблемы мы представляем TeEFusion (Text Embeddings Fusion) — новый и эффективный метод дистилляции, который напрямую интегрирует величину управления в текстовые эмбеддинги и дистиллирует сложную стратегию сэмплинга учительской модели. Просто объединяя условные и безусловные текстовые эмбеддинги с помощью линейных операций, TeEFusion воссоздает необходимое управление без добавления дополнительных параметров, одновременно позволяя ученической модели обучаться на выходных данных учительской модели, полученных с использованием её сложного подхода к сэмплингу. Многочисленные эксперименты на передовых моделях, таких как SD3, демонстрируют, что наш метод позволяет ученической модели близко воспроизводить производительность учительской модели с гораздо более простой и эффективной стратегией сэмплинга. В результате ученическая модель достигает скорости вывода до 6 раз быстрее, чем учительская модель, при этом сохраняя качество изображений на уровне, сопоставимом с результатами, полученными с использованием сложного подхода к сэмплингу учительской модели. Код доступен публично по адресу https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated
sampling strategies and classifier-free guidance (CFG) to ensure high-quality
generation. However, CFG's reliance on two forward passes, especially when
combined with intricate sampling algorithms, results in prohibitively high
inference costs. To address this, we introduce TeEFusion (Text
Embeddings Fusion), a novel and efficient distillation method
that directly incorporates the guidance magnitude into the text embeddings and
distills the teacher model's complex sampling strategy. By simply fusing
conditional and unconditional text embeddings using linear operations,
TeEFusion reconstructs the desired guidance without adding extra parameters,
simultaneously enabling the student model to learn from the teacher's output
produced via its sophisticated sampling approach. Extensive experiments on
state-of-the-art models such as SD3 demonstrate that our method allows the
student to closely mimic the teacher's performance with a far simpler and more
efficient sampling strategy. Consequently, the student model achieves inference
speeds up to 6times faster than the teacher model, while maintaining image
quality at levels comparable to those obtained through the teacher's complex
sampling approach. The code is publicly available at
https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.