TweedieMix: Melhorando a Fusão de Múltiplos Conceitos para Geração de Imagens/Vídeos com Base em Difusão

Resumo

Apesar dos avanços significativos na personalização de modelos de geração de texto para imagem e vídeo, gerar imagens e vídeos que integrem efetivamente múltiplos conceitos personalizados ainda é uma tarefa desafiadora. Para abordar isso, apresentamos TweedieMix, um método inovador para compor modelos de difusão personalizados durante a fase de inferência. Ao analisar as propriedades da amostragem de difusão reversa, nossa abordagem divide o processo de amostragem em duas etapas. Durante as etapas iniciais, aplicamos uma técnica de amostragem consciente de múltiplos objetos para garantir a inclusão dos objetos-alvo desejados. Nas etapas posteriores, mesclamos as aparências dos conceitos personalizados no espaço de imagem denoised usando a fórmula de Tweedie. Nossos resultados demonstram que o TweedieMix pode gerar múltiplos conceitos personalizados com maior fidelidade do que os métodos existentes. Além disso, nosso framework pode ser facilmente estendido para modelos de difusão de imagem para vídeo, possibilitando a geração de vídeos que apresentam múltiplos conceitos personalizados. Resultados e código-fonte estão em nossa página de projeto anônima.

English

Despite significant advancements in customizing text-to-image and video generation models, generating images and videos that effectively integrate multiple personalized concepts remains a challenging task. To address this, we present TweedieMix, a novel method for composing customized diffusion models during the inference phase. By analyzing the properties of reverse diffusion sampling, our approach divides the sampling process into two stages. During the initial steps, we apply a multiple object-aware sampling technique to ensure the inclusion of the desired target objects. In the later steps, we blend the appearances of the custom concepts in the de-noised image space using Tweedie's formula. Our results demonstrate that TweedieMix can generate multiple personalized concepts with higher fidelity than existing methods. Moreover, our framework can be effortlessly extended to image-to-video diffusion models, enabling the generation of videos that feature multiple personalized concepts. Results and source code are in our anonymous project page.

TweedieMix: Melhorando a Fusão de Múltiplos Conceitos para Geração de Imagens/Vídeos com Base em Difusão

TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation

Resumo

Support