TweedieMix: Migliorare la Fusione Multi-Concetto per la Generazione di Immagini/Video basata sulla Diffusione
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
October 8, 2024
Autori: Gihyun Kwon, Jong Chul Ye
cs.AI
Abstract
Nonostante significativi progressi nella personalizzazione dei modelli di generazione di testo-immagine e video, generare immagini e video che integrino efficacemente più concetti personalizzati rimane un compito impegnativo. Per affrontare ciò, presentiamo TweedieMix, un nuovo metodo per comporre modelli di diffusione personalizzati durante la fase di inferenza. Analizzando le proprietà del campionamento di diffusione inversa, il nostro approccio suddivide il processo di campionamento in due fasi. Durante i passaggi iniziali, applichiamo una tecnica di campionamento consapevole di più oggetti per garantire l'inclusione degli oggetti target desiderati. Nei passaggi successivi, mescoliamo le apparenze dei concetti personalizzati nello spazio immagine de-rumore utilizzando la formula di Tweedie. I nostri risultati dimostrano che TweedieMix può generare più concetti personalizzati con una maggiore fedeltà rispetto ai metodi esistenti. Inoltre, il nostro framework può essere facilmente esteso ai modelli di diffusione da immagine a video, consentendo la generazione di video che presentano più concetti personalizzati. I risultati e il codice sorgente sono disponibili nella nostra pagina di progetto anonima.
English
Despite significant advancements in customizing text-to-image and video
generation models, generating images and videos that effectively integrate
multiple personalized concepts remains a challenging task. To address this, we
present TweedieMix, a novel method for composing customized diffusion models
during the inference phase. By analyzing the properties of reverse diffusion
sampling, our approach divides the sampling process into two stages. During the
initial steps, we apply a multiple object-aware sampling technique to ensure
the inclusion of the desired target objects. In the later steps, we blend the
appearances of the custom concepts in the de-noised image space using Tweedie's
formula. Our results demonstrate that TweedieMix can generate multiple
personalized concepts with higher fidelity than existing methods. Moreover, our
framework can be effortlessly extended to image-to-video diffusion models,
enabling the generation of videos that feature multiple personalized concepts.
Results and source code are in our anonymous project page.