TweedieMix: Улучшение слияния множественных концепций для генерации изображений/видео на основе диффузии
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
October 8, 2024
Авторы: Gihyun Kwon, Jong Chul Ye
cs.AI
Аннотация
Несмотря на значительные достижения в настройке моделей генерации текста в изображения и видео, создание изображений и видео, эффективно интегрирующих несколько персонализированных концепций, остается сложной задачей. Для решения этой проблемы мы представляем TweedieMix - новый метод составления индивидуализированных моделей диффузии во время фазы вывода. Анализируя свойства обратной диффузии при выборке, наш подход разделяет процесс выборки на два этапа. В начальных шагах мы применяем технику выборки, осознающую несколько объектов, чтобы гарантировать включение желаемых целевых объектов. На более поздних шагах мы смешиваем внешний вид индивидуальных концепций в пространстве изображения без шумов, используя формулу Твиди. Наши результаты показывают, что TweedieMix способен генерировать несколько персонализированных концепций с более высокой достоверностью, чем существующие методы. Более того, наша структура легко расширяется на модели диффузии изображения в видео, что позволяет создавать видео с несколькими персонализированными концепциями. Результаты и исходный код доступны на нашей анонимной странице проекта.
English
Despite significant advancements in customizing text-to-image and video
generation models, generating images and videos that effectively integrate
multiple personalized concepts remains a challenging task. To address this, we
present TweedieMix, a novel method for composing customized diffusion models
during the inference phase. By analyzing the properties of reverse diffusion
sampling, our approach divides the sampling process into two stages. During the
initial steps, we apply a multiple object-aware sampling technique to ensure
the inclusion of the desired target objects. In the later steps, we blend the
appearances of the custom concepts in the de-noised image space using Tweedie's
formula. Our results demonstrate that TweedieMix can generate multiple
personalized concepts with higher fidelity than existing methods. Moreover, our
framework can be effortlessly extended to image-to-video diffusion models,
enabling the generation of videos that feature multiple personalized concepts.
Results and source code are in our anonymous project page.Summary
AI-Generated Summary