EchoDistill: Distilación Bidireccional de Conceptos para la Personalización en un Solo Paso de Difusión
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
October 23, 2025
Autores: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang
cs.AI
Resumen
Los recientes avances en la aceleración de modelos de difusión de texto a imagen (T2I) han permitido la síntesis de imágenes de alta fidelidad incluso en un solo paso. Sin embargo, la personalización de estos modelos para incorporar conceptos novedosos sigue siendo un desafío debido a la capacidad limitada de los modelos de un solo paso para capturar distribuciones de nuevos conceptos de manera efectiva. Proponemos un marco de destilación conceptual bidireccional, EchoDistill, para permitir la personalización de difusión en un solo paso (1-SDP). Nuestro enfoque implica un proceso de entrenamiento integral en el que un modelo de difusión de múltiples pasos (maestro) y un modelo de difusión de un solo paso (estudiante) se entrenan simultáneamente. El concepto se destila primero del modelo maestro al estudiante, y luego es devuelto del estudiante al maestro. Durante EchoDistill, compartimos el codificador de texto entre los dos modelos para garantizar una comprensión semántica consistente. Posteriormente, el modelo estudiante se optimiza con pérdidas adversariales para alinearse con la distribución de imágenes reales y con pérdidas de alineación para mantener la coherencia con la salida del maestro. Además, introducimos la estrategia de refinamiento por eco bidireccional, mediante la cual el modelo estudiante aprovecha su capacidad de generación más rápida para retroalimentar al modelo maestro. Este mecanismo de destilación conceptual bidireccional no solo mejora la capacidad del estudiante para personalizar conceptos novedosos, sino que también mejora la calidad generativa del modelo maestro. Nuestros experimentos demuestran que este marco colaborativo supera significativamente a los métodos de personalización existentes en la configuración 1-SDP, estableciendo un nuevo paradigma para la personalización rápida y efectiva en modelos de difusión T2I.
English
Recent advances in accelerating text-to-image (T2I) diffusion models have
enabled the synthesis of high-fidelity images even in a single step. However,
personalizing these models to incorporate novel concepts remains a challenge
due to the limited capacity of one-step models to capture new concept
distributions effectively. We propose a bidirectional concept distillation
framework, EchoDistill, to enable one-step diffusion personalization (1-SDP).
Our approach involves an end-to-end training process where a multi-step
diffusion model (teacher) and a one-step diffusion model (student) are trained
simultaneously. The concept is first distilled from the teacher model to the
student, and then echoed back from the student to the teacher. During the
EchoDistill, we share the text encoder between the two models to ensure
consistent semantic understanding. Following this, the student model is
optimized with adversarial losses to align with the real image distribution and
with alignment losses to maintain consistency with the teacher's output.
Furthermore, we introduce the bidirectional echoing refinement strategy,
wherein the student model leverages its faster generation capability to
feedback to the teacher model. This bidirectional concept distillation
mechanism not only enhances the student ability to personalize novel concepts
but also improves the generative quality of the teacher model. Our experiments
demonstrate that this collaborative framework significantly outperforms
existing personalization methods over the 1-SDP setup, establishing a novel
paradigm for rapid and effective personalization in T2I diffusion models.