EchoDistill: Distillazione Bidirezionale dei Concetti per la Personalizzazione One-Step della Diffusione
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
October 23, 2025
Autori: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI
Abstract
I recenti progressi nell'accelerazione dei modelli di diffusione text-to-image (T2I) hanno reso possibile la sintesi di immagini ad alta fedeltà anche in un singolo passo. Tuttavia, la personalizzazione di questi modelli per incorporare nuovi concetti rimane una sfida a causa della capacità limitata dei modelli a un passo di catturare efficacemente le distribuzioni di nuovi concetti. Proponiamo un framework di distillazione bidirezionale dei concetti, EchoDistill, per abilitare la personalizzazione della diffusione in un solo passo (1-SDP). Il nostro approccio prevede un processo di addestramento end-to-end in cui un modello di diffusione multi-passo (teacher) e un modello di diffusione a un passo (student) vengono addestrati simultaneamente. Il concetto viene prima distillato dal modello teacher allo student, per poi essere fatto eco dallo student al teacher. Durante EchoDistill, condividiamo l'encoder di testo tra i due modelli per garantire una comprensione semantica coerente. Successivamente, il modello student viene ottimizzato con loss adversarial per allinearsi alla distribuzione di immagini reali e con loss di allineamento per mantenere la coerenza con l'output del teacher. Inoltre, introduciamo la strategia di raffinamento a eco bidirezionale, in cui il modello student sfrutta la sua capacità di generazione più rapida per fornire feedback al modello teacher. Questo meccanismo di distillazione bidirezionale dei concetti non solo migliora la capacità dello student di personalizzare nuovi concetti, ma anche la qualità generativa del modello teacher. I nostri esperimenti dimostrano che questo framework collaborativo supera significativamente i metodi di personalizzazione esistenti nell'ambito 1-SDP, stabilendo un nuovo paradigma per una personalizzazione rapida ed efficace nei modelli di diffusione T2I.
English
Recent advances in accelerating text-to-image (T2I) diffusion models have
enabled the synthesis of high-fidelity images even in a single step. However,
personalizing these models to incorporate novel concepts remains a challenge
due to the limited capacity of one-step models to capture new concept
distributions effectively. We propose a bidirectional concept distillation
framework, EchoDistill, to enable one-step diffusion personalization (1-SDP).
Our approach involves an end-to-end training process where a multi-step
diffusion model (teacher) and a one-step diffusion model (student) are trained
simultaneously. The concept is first distilled from the teacher model to the
student, and then echoed back from the student to the teacher. During the
EchoDistill, we share the text encoder between the two models to ensure
consistent semantic understanding. Following this, the student model is
optimized with adversarial losses to align with the real image distribution and
with alignment losses to maintain consistency with the teacher's output.
Furthermore, we introduce the bidirectional echoing refinement strategy,
wherein the student model leverages its faster generation capability to
feedback to the teacher model. This bidirectional concept distillation
mechanism not only enhances the student ability to personalize novel concepts
but also improves the generative quality of the teacher model. Our experiments
demonstrate that this collaborative framework significantly outperforms
existing personalization methods over the 1-SDP setup, establishing a novel
paradigm for rapid and effective personalization in T2I diffusion models.