TweedieMix: Verbetering van Multi-Concept Fusie voor Generatie van Beelden/Video's op Basis van Diffusie
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
October 8, 2024
Auteurs: Gihyun Kwon, Jong Chul Ye
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in het aanpassen van modellen voor het genereren van tekst-naar-afbeelding en video, blijft het genereren van afbeeldingen en video's die effectief meerdere gepersonaliseerde concepten integreren een uitdagende taak. Om dit aan te pakken, presenteren we TweedieMix, een nieuw methodiek voor het samenstellen van aangepaste diffusiemodellen tijdens de inferentiefase. Door de eigenschappen van reverse diffusion sampling te analyseren, verdeelt onze aanpak het bemonsteringsproces in twee fasen. Tijdens de initiële stappen passen we een techniek toe voor het bemonsteren met meerdere objecten om ervoor te zorgen dat de gewenste doelobjecten zijn opgenomen. In latere stappen mengen we de verschijningen van de aangepaste concepten in de gedenoisede afbeeldingsruimte met behulp van de formule van Tweedie. Onze resultaten tonen aan dat TweedieMix meerdere gepersonaliseerde concepten kan genereren met een hogere geloofwaardigheid dan bestaande methoden. Bovendien kan ons raamwerk moeiteloos worden uitgebreid naar diffusiemodellen van afbeelding-naar-video, waardoor de generatie van video's met meerdere gepersonaliseerde concepten mogelijk is. Resultaten en broncode zijn te vinden op onze anonieme projectpagina.
English
Despite significant advancements in customizing text-to-image and video
generation models, generating images and videos that effectively integrate
multiple personalized concepts remains a challenging task. To address this, we
present TweedieMix, a novel method for composing customized diffusion models
during the inference phase. By analyzing the properties of reverse diffusion
sampling, our approach divides the sampling process into two stages. During the
initial steps, we apply a multiple object-aware sampling technique to ensure
the inclusion of the desired target objects. In the later steps, we blend the
appearances of the custom concepts in the de-noised image space using Tweedie's
formula. Our results demonstrate that TweedieMix can generate multiple
personalized concepts with higher fidelity than existing methods. Moreover, our
framework can be effortlessly extended to image-to-video diffusion models,
enabling the generation of videos that feature multiple personalized concepts.
Results and source code are in our anonymous project page.Summary
AI-Generated Summary