EchoDistill:ワンステップ拡散パーソナライゼーションのための双方向概念蒸留
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
October 23, 2025
著者: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI
要旨
テキストから画像への拡散モデル(T2I)の高速化に関する最近の進展により、単一ステップであっても高精細な画像の合成が可能となった。しかし、ワンステップモデルは新規概念の分布を効果的に捉える能力が限られているため、これらのモデルを新規概念に適応させるパーソナライゼーションは依然として課題である。本論文では、ワンステップ拡散パーソナライゼーション(1-SDP)を可能にする双方向概念蒸留フレームワーク「EchoDistill」を提案する。我々のアプローチは、マルチステップ拡散モデル(教師モデル)とワンステップ拡散モデル(学生モデル)を同時に訓練するエンドツーエンドの学習プロセスを含む。概念はまず教師モデルから学生モデルへ蒸留され、その後、学生モデルから教師モデルへと回帰(エコー)される。EchoDistillの過程では、両モデル間でテキストエンコーダを共有し、一貫した意味理解を保証する。続いて、学生モデルは、実画像分布に整合するための敵対的損失と、教師モデルの出力との一貫性を保つための整合性損失を用いて最適化される。さらに、学生モデルがその高速な生成能力を活用して教師モデルにフィードバックする双方向エコー精緻化戦略を導入する。この双方向概念蒸留メカニズムは、学生モデルの新規概念パーソナライゼーション能力を強化するだけでなく、教師モデルの生成的品質も向上させる。我々の実験により、この協調的フレームワークが1-SDP設定において既存のパーソナライゼーション手法を有意に上回り、T2I拡散モデルにおける迅速かつ効果的なパーソナライゼーションの新たなパラダイムを確立することを実証する。
English
Recent advances in accelerating text-to-image (T2I) diffusion models have
enabled the synthesis of high-fidelity images even in a single step. However,
personalizing these models to incorporate novel concepts remains a challenge
due to the limited capacity of one-step models to capture new concept
distributions effectively. We propose a bidirectional concept distillation
framework, EchoDistill, to enable one-step diffusion personalization (1-SDP).
Our approach involves an end-to-end training process where a multi-step
diffusion model (teacher) and a one-step diffusion model (student) are trained
simultaneously. The concept is first distilled from the teacher model to the
student, and then echoed back from the student to the teacher. During the
EchoDistill, we share the text encoder between the two models to ensure
consistent semantic understanding. Following this, the student model is
optimized with adversarial losses to align with the real image distribution and
with alignment losses to maintain consistency with the teacher's output.
Furthermore, we introduce the bidirectional echoing refinement strategy,
wherein the student model leverages its faster generation capability to
feedback to the teacher model. This bidirectional concept distillation
mechanism not only enhances the student ability to personalize novel concepts
but also improves the generative quality of the teacher model. Our experiments
demonstrate that this collaborative framework significantly outperforms
existing personalization methods over the 1-SDP setup, establishing a novel
paradigm for rapid and effective personalization in T2I diffusion models.