CustomVideo: Aanpassen van Tekst-naar-Video Generatie met Meerdere Onderwerpen
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Auteurs: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Samenvatting
Gepersonaliseerde tekst-naar-video-generatie heeft als doel hoogwaardige video's te genereren die worden gestuurd door tekstprompts en onderwerpverwijzingen. Bestaande methoden die zijn ontworpen voor afzonderlijke onderwerpen, hebben moeite met het behandelen van meerdere onderwerpen, wat een uitdagender en praktischer scenario is. In dit werk streven we ernaar om tekst-naar-video-personalisatie met meerdere onderwerpen te bevorderen. We introduceren CustomVideo, een nieuw framework dat identiteit-bewarende video's kan genereren met begeleiding van meerdere onderwerpen. Specifiek moedigen we eerst het gelijktijdig voorkomen van meerdere onderwerpen aan door ze in één afbeelding te combineren. Verder ontwerpen we, gebaseerd op een basis tekst-naar-video-diffusiemodel, een eenvoudige maar effectieve aandachtcontrole-strategie om verschillende onderwerpen in de latente ruimte van het diffusiemodel te ontwarren. Bovendien helpen we het model om zich te concentreren op het specifieke objectgebied door het object uit gegeven referentieafbeeldingen te segmenteren en een bijbehorend objectmasker te bieden voor aandachtleren. Ook hebben we een dataset voor tekst-naar-video-generatie met meerdere onderwerpen samengesteld als een uitgebreide benchmark, met 69 individuele onderwerpen en 57 betekenisvolle paren. Uitgebreide kwalitatieve, kwantitatieve en gebruikersstudieresultaten tonen de superioriteit van onze methode aan in vergelijking met de vorige state-of-the-art benaderingen.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.