TweedieMix : Amélioration de la Fusion Multi-Concept pour la Génération d'Images/Vidéos basée sur la Diffusion
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
October 8, 2024
Auteurs: Gihyun Kwon, Jong Chul Ye
cs.AI
Résumé
Malgré les avancées significatives dans la personnalisation des modèles de génération de texte en image et en vidéo, la génération d'images et de vidéos intégrant efficacement plusieurs concepts personnalisés demeure une tâche complexe. Pour remédier à cela, nous présentons TweedieMix, une méthode novatrice pour composer des modèles de diffusion personnalisés lors de la phase d'inférence. En analysant les propriétés de l'échantillonnage par diffusion inverse, notre approche divise le processus d'échantillonnage en deux étapes. Au cours des premières étapes, nous appliquons une technique d'échantillonnage consciente de plusieurs objets pour garantir l'inclusion des objets cibles souhaités. Dans les étapes ultérieures, nous fusionnons les apparences des concepts personnalisés dans l'espace d'image débruitée en utilisant la formule de Tweedie. Nos résultats démontrent que TweedieMix peut générer plusieurs concepts personnalisés avec une fidélité supérieure aux méthodes existantes. De plus, notre cadre peut être facilement étendu aux modèles de diffusion d'image en vidéo, permettant la génération de vidéos présentant plusieurs concepts personnalisés. Les résultats et le code source sont disponibles sur notre page de projet anonyme.
English
Despite significant advancements in customizing text-to-image and video
generation models, generating images and videos that effectively integrate
multiple personalized concepts remains a challenging task. To address this, we
present TweedieMix, a novel method for composing customized diffusion models
during the inference phase. By analyzing the properties of reverse diffusion
sampling, our approach divides the sampling process into two stages. During the
initial steps, we apply a multiple object-aware sampling technique to ensure
the inclusion of the desired target objects. In the later steps, we blend the
appearances of the custom concepts in the de-noised image space using Tweedie's
formula. Our results demonstrate that TweedieMix can generate multiple
personalized concepts with higher fidelity than existing methods. Moreover, our
framework can be effortlessly extended to image-to-video diffusion models,
enabling the generation of videos that feature multiple personalized concepts.
Results and source code are in our anonymous project page.Summary
AI-Generated Summary