EchoDistill: 원스텝 확산 모델 개인화를 위한 양방향 개념 증류
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
October 23, 2025
저자: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI
초록
텍스트-이미지(T2I) 확산 모델의 가속화 기술 발전으로 단일 단계에서도 고품질 이미지 합성이 가능해졌다. 그러나 단일 단계 모델의 제한된 용량으로 인해 새로운 개념 분포를 효과적으로 학습하는 개인화 과정은 여전히 과제로 남아있다. 본 연구에서는 단일 단계 확산 개인화(1-SDP)를 가능하게 하는 양방향 개념 증류 프레임워크인 EchoDistill을 제안한다. 우리의 접근법은 다단계 확산 모델(교사)과 단일 단계 확산 모델(학생)을 동시에 학습하는 종단간 훈련 과정으로, 개념이 교사 모델에서 학생 모델로 증류된 후 학생 모델에서 교사 모델로 재전달되는 양방향 흐름을 특징으로 한다. EchoDistill 과정에서 두 모델 간의 일관된 의미론적 이해를 위해 텍스트 인코더를 공유하며, 학생 모델은 실제 이미지 분포와의 정렬을 위한 적대적 손실과 교사 모델 출력과의 일관성 유지를 위한 정렬 손실로 최적화된다. 더 나아가 학생 모델이 빠른 생성 능력을 활용해 교사 모델에 피드백을 제공하는 양방향 에코 정제 전략을 도입한다. 이 양방향 개념 증류 메커니즘은 학생 모델의 새로운 개념 개인화 능력을 향상시킬 뿐만 아니라 교사 모델의 생성 품질도 개선한다. 실험 결과, 이 협력적 프레임워크가 기존 개인화 방법들을 1-SDP 설정에서 크게 능가함을 확인하였으며, T2I 확산 모델의 빠르고 효과적인 개인화를 위한 새로운 패러다임을 정립하였다.
English
Recent advances in accelerating text-to-image (T2I) diffusion models have
enabled the synthesis of high-fidelity images even in a single step. However,
personalizing these models to incorporate novel concepts remains a challenge
due to the limited capacity of one-step models to capture new concept
distributions effectively. We propose a bidirectional concept distillation
framework, EchoDistill, to enable one-step diffusion personalization (1-SDP).
Our approach involves an end-to-end training process where a multi-step
diffusion model (teacher) and a one-step diffusion model (student) are trained
simultaneously. The concept is first distilled from the teacher model to the
student, and then echoed back from the student to the teacher. During the
EchoDistill, we share the text encoder between the two models to ensure
consistent semantic understanding. Following this, the student model is
optimized with adversarial losses to align with the real image distribution and
with alignment losses to maintain consistency with the teacher's output.
Furthermore, we introduce the bidirectional echoing refinement strategy,
wherein the student model leverages its faster generation capability to
feedback to the teacher model. This bidirectional concept distillation
mechanism not only enhances the student ability to personalize novel concepts
but also improves the generative quality of the teacher model. Our experiments
demonstrate that this collaborative framework significantly outperforms
existing personalization methods over the 1-SDP setup, establishing a novel
paradigm for rapid and effective personalization in T2I diffusion models.