EchoDistill: Двунаправленная концептуальная дистилляция для одношаговой персонализации диффузии
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
October 23, 2025
Авторы: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI
Аннотация
Последние достижения в ускорении диффузионных моделей "текст-изображение" (T2I) позволили синтезировать изображения высокого качества даже за один шаг. Однако персонализация этих моделей для включения новых концепций остается сложной задачей из-за ограниченной способности одношаговых моделей эффективно захватывать распределения новых концепций. Мы предлагаем двунаправленную фреймворк дистилляции концептов EchoDistill для обеспечения одношаговой персонализации диффузии (1-SDP). Наш подход включает сквозной процесс обучения, в котором многошаговая диффузионная модель (учитель) и одношаговая диффузионная модель (ученик) обучаются одновременно. Концепт сначала дистиллируется из модели-учителя в модель-ученика, а затем возвращается обратно от ученика к учителю. В процессе EchoDistill мы используем общий текстовый энкодер для обеих моделей, чтобы обеспечить согласованное семантическое понимание. После этого модель-ученик оптимизируется с помощью адверсарных потерь для согласования с распределением реальных изображений и с помощью потерь выравнивания для сохранения согласованности с выходом учителя. Кроме того, мы вводим стратегию двунаправленного рефайнмента, в которой модель-ученик использует свою более быструю генерацию для обратной связи с моделью-учителем. Этот механизм двунаправленной дистилляции концептов не только улучшает способность ученика к персонализации новых концептов, но и повышает качество генерации модели-учителя. Наши эксперименты демонстрируют, что данный коллаборативный фреймворк значительно превосходит существующие методы персонализации в настройке 1-SDP, устанавливая новую парадигму для быстрой и эффективной персонализации в диффузионных моделях T2I.
English
Recent advances in accelerating text-to-image (T2I) diffusion models have
enabled the synthesis of high-fidelity images even in a single step. However,
personalizing these models to incorporate novel concepts remains a challenge
due to the limited capacity of one-step models to capture new concept
distributions effectively. We propose a bidirectional concept distillation
framework, EchoDistill, to enable one-step diffusion personalization (1-SDP).
Our approach involves an end-to-end training process where a multi-step
diffusion model (teacher) and a one-step diffusion model (student) are trained
simultaneously. The concept is first distilled from the teacher model to the
student, and then echoed back from the student to the teacher. During the
EchoDistill, we share the text encoder between the two models to ensure
consistent semantic understanding. Following this, the student model is
optimized with adversarial losses to align with the real image distribution and
with alignment losses to maintain consistency with the teacher's output.
Furthermore, we introduce the bidirectional echoing refinement strategy,
wherein the student model leverages its faster generation capability to
feedback to the teacher model. This bidirectional concept distillation
mechanism not only enhances the student ability to personalize novel concepts
but also improves the generative quality of the teacher model. Our experiments
demonstrate that this collaborative framework significantly outperforms
existing personalization methods over the 1-SDP setup, establishing a novel
paradigm for rapid and effective personalization in T2I diffusion models.