EchoDistill: Destilação Bidirecional de Conceitos para a Personalização em Uma Etapa de Difusão
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
October 23, 2025
Autores: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI
Resumo
Os recentes avanços na aceleração de modelos de difusão texto-imagem (T2I) permitiram a síntese de imagens de alta fidelidade em até uma única etapa. No entanto, a personalização desses modelos para incorporar novos conceitos permanece um desafio devido à capacidade limitada dos modelos de etapa única para capturar distribuições de novos conceitos de forma eficaz. Propomos uma estrutura de destilação conceitual bidirecional, EchoDistill, para permitir a personalização de difusão em uma etapa (1-SDP). Nossa abordagem envolve um processo de treinamento end-to-end no qual um modelo de difusão multi-etapa (professor) e um modelo de difusão de etapa única (estudante) são treinados simultaneamente. O conceito é primeiro destilado do modelo professor para o estudante e depois ecoado de volta do estudante para o professor. Durante o EchoDistill, compartilhamos o codificador de texto entre os dois modelos para garantir uma compreensão semântica consistente. Após isso, o modelo estudante é otimizado com perdas adversariais para se alinhar com a distribuição de imagens reais e com perdas de alinhamento para manter a consistência com a saída do professor. Além disso, introduzimos a estratégia de refinamento por eco bidirecional, na qual o modelo estudante aproveita sua capacidade de geração mais rápida para fornecer feedback ao modelo professor. Este mecanismo de destilação conceitual bidirecional não apenas aprimora a capacidade do estudante de personalizar novos conceitos, mas também melhora a qualidade generativa do modelo professor. Nossos experimentos demonstram que esta estrutura colaborativa supera significativamente os métodos de personalização existentes na configuração 1-SDP, estabelecendo um novo paradigma para personalização rápida e eficaz em modelos de difusão T2I.
English
Recent advances in accelerating text-to-image (T2I) diffusion models have
enabled the synthesis of high-fidelity images even in a single step. However,
personalizing these models to incorporate novel concepts remains a challenge
due to the limited capacity of one-step models to capture new concept
distributions effectively. We propose a bidirectional concept distillation
framework, EchoDistill, to enable one-step diffusion personalization (1-SDP).
Our approach involves an end-to-end training process where a multi-step
diffusion model (teacher) and a one-step diffusion model (student) are trained
simultaneously. The concept is first distilled from the teacher model to the
student, and then echoed back from the student to the teacher. During the
EchoDistill, we share the text encoder between the two models to ensure
consistent semantic understanding. Following this, the student model is
optimized with adversarial losses to align with the real image distribution and
with alignment losses to maintain consistency with the teacher's output.
Furthermore, we introduce the bidirectional echoing refinement strategy,
wherein the student model leverages its faster generation capability to
feedback to the teacher model. This bidirectional concept distillation
mechanism not only enhances the student ability to personalize novel concepts
but also improves the generative quality of the teacher model. Our experiments
demonstrate that this collaborative framework significantly outperforms
existing personalization methods over the 1-SDP setup, establishing a novel
paradigm for rapid and effective personalization in T2I diffusion models.