EchoDistill: Двунаправленная концептуальная дистилляция для одношаговой персонализации диффузии

Аннотация

Последние достижения в ускорении диффузионных моделей "текст-изображение" (T2I) позволили синтезировать изображения высокого качества даже за один шаг. Однако персонализация этих моделей для включения новых концепций остается сложной задачей из-за ограниченной способности одношаговых моделей эффективно захватывать распределения новых концепций. Мы предлагаем двунаправленную фреймворк дистилляции концептов EchoDistill для обеспечения одношаговой персонализации диффузии (1-SDP). Наш подход включает сквозной процесс обучения, в котором многошаговая диффузионная модель (учитель) и одношаговая диффузионная модель (ученик) обучаются одновременно. Концепт сначала дистиллируется из модели-учителя в модель-ученика, а затем возвращается обратно от ученика к учителю. В процессе EchoDistill мы используем общий текстовый энкодер для обеих моделей, чтобы обеспечить согласованное семантическое понимание. После этого модель-ученик оптимизируется с помощью адверсарных потерь для согласования с распределением реальных изображений и с помощью потерь выравнивания для сохранения согласованности с выходом учителя. Кроме того, мы вводим стратегию двунаправленного рефайнмента, в которой модель-ученик использует свою более быструю генерацию для обратной связи с моделью-учителем. Этот механизм двунаправленной дистилляции концептов не только улучшает способность ученика к персонализации новых концептов, но и повышает качество генерации модели-учителя. Наши эксперименты демонстрируют, что данный коллаборативный фреймворк значительно превосходит существующие методы персонализации в настройке 1-SDP, устанавливая новую парадигму для быстрой и эффективной персонализации в диффузионных моделях T2I.

English

Recent advances in accelerating text-to-image (T2I) diffusion models have enabled the synthesis of high-fidelity images even in a single step. However, personalizing these models to incorporate novel concepts remains a challenge due to the limited capacity of one-step models to capture new concept distributions effectively. We propose a bidirectional concept distillation framework, EchoDistill, to enable one-step diffusion personalization (1-SDP). Our approach involves an end-to-end training process where a multi-step diffusion model (teacher) and a one-step diffusion model (student) are trained simultaneously. The concept is first distilled from the teacher model to the student, and then echoed back from the student to the teacher. During the EchoDistill, we share the text encoder between the two models to ensure consistent semantic understanding. Following this, the student model is optimized with adversarial losses to align with the real image distribution and with alignment losses to maintain consistency with the teacher's output. Furthermore, we introduce the bidirectional echoing refinement strategy, wherein the student model leverages its faster generation capability to feedback to the teacher model. This bidirectional concept distillation mechanism not only enhances the student ability to personalize novel concepts but also improves the generative quality of the teacher model. Our experiments demonstrate that this collaborative framework significantly outperforms existing personalization methods over the 1-SDP setup, establishing a novel paradigm for rapid and effective personalization in T2I diffusion models.

EchoDistill: Двунаправленная концептуальная дистилляция для одношаговой персонализации диффузии

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Аннотация

Support