ChatPaper.aiChatPaper

TeEFusion: 클래스프리 가이던스를 추출하기 위한 텍스트 임베딩 융합

TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance

July 24, 2025
저자: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

초록

텍스트-이미지 합성 분야의 최근 발전은 고품질 생성을 보장하기 위해 정교한 샘플링 전략과 분류자 없는 가이던스(CFG)의 도움을 크게 받고 있습니다. 그러나 CFG는 두 번의 순방향 패스를 필요로 하며, 특히 복잡한 샘플링 알고리즘과 결합될 경우 과도하게 높은 추론 비용을 초래합니다. 이를 해결하기 위해, 우리는 TeEFusion(Text Embeddings Fusion)이라는 새로운 효율적인 지식 증류 방법을 제안합니다. 이 방법은 가이던스 크기를 텍스트 임베딩에 직접 통합하고, 교사 모델의 복잡한 샘플링 전략을 증류합니다. 조건부와 무조건부 텍스트 임베딩을 선형 연산을 통해 단순히 융합함으로써, TeEFusion은 추가 매개변수 없이도 원하는 가이던스를 재구성하며, 동시에 학생 모델이 교사 모델의 정교한 샘플링 접근법을 통해 생성된 출력을 학습할 수 있도록 합니다. SD3와 같은 최첨단 모델에 대한 광범위한 실험을 통해, 우리의 방법이 학생 모델이 훨씬 간단하고 효율적인 샘플링 전략으로 교사 모델의 성능을 밀접하게 모방할 수 있음을 입증했습니다. 결과적으로, 학생 모델은 교사 모델보다 최대 6배 빠른 추론 속도를 달성하면서도, 교사 모델의 복잡한 샘플링 접근법을 통해 얻은 수준과 비슷한 이미지 품질을 유지합니다. 코드는 https://github.com/AIDC-AI/TeEFusion에서 공개되어 있습니다.
English
Recent advances in text-to-image synthesis largely benefit from sophisticated sampling strategies and classifier-free guidance (CFG) to ensure high-quality generation. However, CFG's reliance on two forward passes, especially when combined with intricate sampling algorithms, results in prohibitively high inference costs. To address this, we introduce TeEFusion (Text Embeddings Fusion), a novel and efficient distillation method that directly incorporates the guidance magnitude into the text embeddings and distills the teacher model's complex sampling strategy. By simply fusing conditional and unconditional text embeddings using linear operations, TeEFusion reconstructs the desired guidance without adding extra parameters, simultaneously enabling the student model to learn from the teacher's output produced via its sophisticated sampling approach. Extensive experiments on state-of-the-art models such as SD3 demonstrate that our method allows the student to closely mimic the teacher's performance with a far simpler and more efficient sampling strategy. Consequently, the student model achieves inference speeds up to 6times faster than the teacher model, while maintaining image quality at levels comparable to those obtained through the teacher's complex sampling approach. The code is publicly available at https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
PDF72July 25, 2025