TweedieMix: Mejorando la Fusión de Múltiples Conceptos para la Generación de Imágenes/Vídeos basada en Difusión
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
October 8, 2024
Autores: Gihyun Kwon, Jong Chul Ye
cs.AI
Resumen
A pesar de los avances significativos en la personalización de modelos de generación de texto a imagen y video, generar imágenes y videos que integren efectivamente múltiples conceptos personalizados sigue siendo una tarea desafiante. Para abordar esto, presentamos TweedieMix, un método novedoso para componer modelos de difusión personalizados durante la fase de inferencia. Al analizar las propiedades del muestreo de difusión inversa, nuestro enfoque divide el proceso de muestreo en dos etapas. Durante los pasos iniciales, aplicamos una técnica de muestreo consciente de múltiples objetos para garantizar la inclusión de los objetos objetivo deseados. En los pasos posteriores, mezclamos las apariencias de los conceptos personalizados en el espacio de imagen desenfocada utilizando la fórmula de Tweedie. Nuestros resultados demuestran que TweedieMix puede generar múltiples conceptos personalizados con una fidelidad mayor que los métodos existentes. Además, nuestro marco puede extenderse fácilmente a modelos de difusión de imagen a video, lo que permite la generación de videos que presentan múltiples conceptos personalizados. Los resultados y el código fuente se encuentran en nuestra página de proyecto anónima.
English
Despite significant advancements in customizing text-to-image and video
generation models, generating images and videos that effectively integrate
multiple personalized concepts remains a challenging task. To address this, we
present TweedieMix, a novel method for composing customized diffusion models
during the inference phase. By analyzing the properties of reverse diffusion
sampling, our approach divides the sampling process into two stages. During the
initial steps, we apply a multiple object-aware sampling technique to ensure
the inclusion of the desired target objects. In the later steps, we blend the
appearances of the custom concepts in the de-noised image space using Tweedie's
formula. Our results demonstrate that TweedieMix can generate multiple
personalized concepts with higher fidelity than existing methods. Moreover, our
framework can be effortlessly extended to image-to-video diffusion models,
enabling the generation of videos that feature multiple personalized concepts.
Results and source code are in our anonymous project page.Summary
AI-Generated Summary