ChatPaper.aiChatPaper

TweedieMix: Verbesserung der Multi-Konzept-Fusion für die Generierung von Bildern/Videos auf Basis von Diffusion

TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation

October 8, 2024
Autoren: Gihyun Kwon, Jong Chul Ye
cs.AI

Zusammenfassung

Trotz bedeutender Fortschritte bei der Anpassung von Modellen zur Text-zu-Bild- und Videoerzeugung bleibt die Generierung von Bildern und Videos, die mehrere personalisierte Konzepte effektiv integrieren, eine anspruchsvolle Aufgabe. Um dies zu bewältigen, präsentieren wir TweedieMix, eine neuartige Methode zur Komposition von angepassten Diffusionsmodellen während der Inferenzphase. Durch die Analyse der Eigenschaften der Rückdiffusionssamplung unterteilt unser Ansatz den Sampling-Prozess in zwei Phasen. Während der ersten Schritte wenden wir eine Technik des mehrfachen objektbewussten Samplings an, um die gewünschten Zielobjekte einzuschließen. In den späteren Schritten mischen wir die Erscheinungsbilder der benutzerdefinierten Konzepte im denoisierten Bildraum mithilfe der Tweedie-Formel. Unsere Ergebnisse zeigen, dass TweedieMix mehrere personalisierte Konzepte mit höherer Treue als bestehende Methoden generieren kann. Darüber hinaus kann unser Rahmen mühelos auf Bild-zu-Video-Diffusionsmodelle erweitert werden, was die Generierung von Videos ermöglicht, die mehrere personalisierte Konzepte enthalten. Ergebnisse und Quellcode sind auf unserer anonymen Projektseite verfügbar.
English
Despite significant advancements in customizing text-to-image and video generation models, generating images and videos that effectively integrate multiple personalized concepts remains a challenging task. To address this, we present TweedieMix, a novel method for composing customized diffusion models during the inference phase. By analyzing the properties of reverse diffusion sampling, our approach divides the sampling process into two stages. During the initial steps, we apply a multiple object-aware sampling technique to ensure the inclusion of the desired target objects. In the later steps, we blend the appearances of the custom concepts in the de-noised image space using Tweedie's formula. Our results demonstrate that TweedieMix can generate multiple personalized concepts with higher fidelity than existing methods. Moreover, our framework can be effortlessly extended to image-to-video diffusion models, enabling the generation of videos that feature multiple personalized concepts. Results and source code are in our anonymous project page.

Summary

AI-Generated Summary

PDF132November 16, 2024