EchoDistill: Distillazione Bidirezionale dei Concetti per la Personalizzazione One-Step della Diffusione

Abstract

I recenti progressi nell'accelerazione dei modelli di diffusione text-to-image (T2I) hanno reso possibile la sintesi di immagini ad alta fedeltà anche in un singolo passo. Tuttavia, la personalizzazione di questi modelli per incorporare nuovi concetti rimane una sfida a causa della capacità limitata dei modelli a un passo di catturare efficacemente le distribuzioni di nuovi concetti. Proponiamo un framework di distillazione bidirezionale dei concetti, EchoDistill, per abilitare la personalizzazione della diffusione in un solo passo (1-SDP). Il nostro approccio prevede un processo di addestramento end-to-end in cui un modello di diffusione multi-passo (teacher) e un modello di diffusione a un passo (student) vengono addestrati simultaneamente. Il concetto viene prima distillato dal modello teacher allo student, per poi essere fatto eco dallo student al teacher. Durante EchoDistill, condividiamo l'encoder di testo tra i due modelli per garantire una comprensione semantica coerente. Successivamente, il modello student viene ottimizzato con loss adversarial per allinearsi alla distribuzione di immagini reali e con loss di allineamento per mantenere la coerenza con l'output del teacher. Inoltre, introduciamo la strategia di raffinamento a eco bidirezionale, in cui il modello student sfrutta la sua capacità di generazione più rapida per fornire feedback al modello teacher. Questo meccanismo di distillazione bidirezionale dei concetti non solo migliora la capacità dello student di personalizzare nuovi concetti, ma anche la qualità generativa del modello teacher. I nostri esperimenti dimostrano che questo framework collaborativo supera significativamente i metodi di personalizzazione esistenti nell'ambito 1-SDP, stabilendo un nuovo paradigma per una personalizzazione rapida ed efficace nei modelli di diffusione T2I.

English

Recent advances in accelerating text-to-image (T2I) diffusion models have enabled the synthesis of high-fidelity images even in a single step. However, personalizing these models to incorporate novel concepts remains a challenge due to the limited capacity of one-step models to capture new concept distributions effectively. We propose a bidirectional concept distillation framework, EchoDistill, to enable one-step diffusion personalization (1-SDP). Our approach involves an end-to-end training process where a multi-step diffusion model (teacher) and a one-step diffusion model (student) are trained simultaneously. The concept is first distilled from the teacher model to the student, and then echoed back from the student to the teacher. During the EchoDistill, we share the text encoder between the two models to ensure consistent semantic understanding. Following this, the student model is optimized with adversarial losses to align with the real image distribution and with alignment losses to maintain consistency with the teacher's output. Furthermore, we introduce the bidirectional echoing refinement strategy, wherein the student model leverages its faster generation capability to feedback to the teacher model. This bidirectional concept distillation mechanism not only enhances the student ability to personalize novel concepts but also improves the generative quality of the teacher model. Our experiments demonstrate that this collaborative framework significantly outperforms existing personalization methods over the 1-SDP setup, establishing a novel paradigm for rapid and effective personalization in T2I diffusion models.

EchoDistill: Distillazione Bidirezionale dei Concetti per la Personalizzazione One-Step della Diffusione

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Abstract

Support