EchoDistill: Distilación Bidireccional de Conceptos para la Personalización en un Solo Paso de Difusión

Resumen

Los recientes avances en la aceleración de modelos de difusión de texto a imagen (T2I) han permitido la síntesis de imágenes de alta fidelidad incluso en un solo paso. Sin embargo, la personalización de estos modelos para incorporar conceptos novedosos sigue siendo un desafío debido a la capacidad limitada de los modelos de un solo paso para capturar distribuciones de nuevos conceptos de manera efectiva. Proponemos un marco de destilación conceptual bidireccional, EchoDistill, para permitir la personalización de difusión en un solo paso (1-SDP). Nuestro enfoque implica un proceso de entrenamiento integral en el que un modelo de difusión de múltiples pasos (maestro) y un modelo de difusión de un solo paso (estudiante) se entrenan simultáneamente. El concepto se destila primero del modelo maestro al estudiante, y luego es devuelto del estudiante al maestro. Durante EchoDistill, compartimos el codificador de texto entre los dos modelos para garantizar una comprensión semántica consistente. Posteriormente, el modelo estudiante se optimiza con pérdidas adversariales para alinearse con la distribución de imágenes reales y con pérdidas de alineación para mantener la coherencia con la salida del maestro. Además, introducimos la estrategia de refinamiento por eco bidireccional, mediante la cual el modelo estudiante aprovecha su capacidad de generación más rápida para retroalimentar al modelo maestro. Este mecanismo de destilación conceptual bidireccional no solo mejora la capacidad del estudiante para personalizar conceptos novedosos, sino que también mejora la calidad generativa del modelo maestro. Nuestros experimentos demuestran que este marco colaborativo supera significativamente a los métodos de personalización existentes en la configuración 1-SDP, estableciendo un nuevo paradigma para la personalización rápida y efectiva en modelos de difusión T2I.

English

Recent advances in accelerating text-to-image (T2I) diffusion models have enabled the synthesis of high-fidelity images even in a single step. However, personalizing these models to incorporate novel concepts remains a challenge due to the limited capacity of one-step models to capture new concept distributions effectively. We propose a bidirectional concept distillation framework, EchoDistill, to enable one-step diffusion personalization (1-SDP). Our approach involves an end-to-end training process where a multi-step diffusion model (teacher) and a one-step diffusion model (student) are trained simultaneously. The concept is first distilled from the teacher model to the student, and then echoed back from the student to the teacher. During the EchoDistill, we share the text encoder between the two models to ensure consistent semantic understanding. Following this, the student model is optimized with adversarial losses to align with the real image distribution and with alignment losses to maintain consistency with the teacher's output. Furthermore, we introduce the bidirectional echoing refinement strategy, wherein the student model leverages its faster generation capability to feedback to the teacher model. This bidirectional concept distillation mechanism not only enhances the student ability to personalize novel concepts but also improves the generative quality of the teacher model. Our experiments demonstrate that this collaborative framework significantly outperforms existing personalization methods over the 1-SDP setup, establishing a novel paradigm for rapid and effective personalization in T2I diffusion models.

EchoDistill: Distilación Bidireccional de Conceptos para la Personalización en un Solo Paso de Difusión

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Resumen

Support