ChatPaper.aiChatPaper

EchoDistill : Distillation Bidirectionnelle des Concepts pour la Personnalisation en Une Étape des Modèles de Diffusion

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

October 23, 2025
papers.authors: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI

papers.abstract

Les progrès récents dans l'accélération des modèles de diffusion texte-image (T2I) ont permis la synthèse d'images de haute fidélité, même en une seule étape. Cependant, la personnalisation de ces modèles pour intégrer de nouveaux concepts reste un défi en raison de la capacité limitée des modèles à une étape à capturer efficacement les distributions de nouveaux concepts. Nous proposons un cadre de distillation bidirectionnelle de concepts, EchoDistill, pour permettre une personnalisation de la diffusion en une étape (1-SDP). Notre approche implique un processus d'entraînement de bout en bout où un modèle de diffusion multi-étapes (enseignant) et un modèle de diffusion à une étape (élève) sont entraînés simultanément. Le concept est d'abord distillé du modèle enseignant vers l'élève, puis renvoyé (echoed back) de l'élève vers l'enseignant. Pendant EchoDistill, nous partageons l'encodeur de texte entre les deux modèles pour assurer une compréhension sémantique cohérente. Ensuite, le modèle élève est optimisé avec des pertes adverses pour s'aligner sur la distribution d'images réelles et avec des pertes d'alignement pour maintenir la cohérence avec la sortie de l'enseignant. De plus, nous introduisons la stratégie de raffinement par écho bidirectionnel, dans laquelle le modèle élève exploite sa capacité de génération plus rapide pour effectuer un retour vers le modèle enseignant. Ce mécanisme de distillation bidirectionnelle des concepts améliore non seulement la capacité de l'élève à personnaliser de nouveaux concepts, mais améliore également la qualité générative du modèle enseignant. Nos expériences démontrent que ce cadre collaboratif surpasse significativement les méthodes de personnalisation existantes dans le cadre du 1-SDP, établissant un nouveau paradigme pour une personnalisation rapide et efficace dans les modèles de diffusion T2I.
English
Recent advances in accelerating text-to-image (T2I) diffusion models have enabled the synthesis of high-fidelity images even in a single step. However, personalizing these models to incorporate novel concepts remains a challenge due to the limited capacity of one-step models to capture new concept distributions effectively. We propose a bidirectional concept distillation framework, EchoDistill, to enable one-step diffusion personalization (1-SDP). Our approach involves an end-to-end training process where a multi-step diffusion model (teacher) and a one-step diffusion model (student) are trained simultaneously. The concept is first distilled from the teacher model to the student, and then echoed back from the student to the teacher. During the EchoDistill, we share the text encoder between the two models to ensure consistent semantic understanding. Following this, the student model is optimized with adversarial losses to align with the real image distribution and with alignment losses to maintain consistency with the teacher's output. Furthermore, we introduce the bidirectional echoing refinement strategy, wherein the student model leverages its faster generation capability to feedback to the teacher model. This bidirectional concept distillation mechanism not only enhances the student ability to personalize novel concepts but also improves the generative quality of the teacher model. Our experiments demonstrate that this collaborative framework significantly outperforms existing personalization methods over the 1-SDP setup, establishing a novel paradigm for rapid and effective personalization in T2I diffusion models.
PDF31December 31, 2025