CustomVideo: Personalizzazione della generazione video da testo con più soggetti
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Autori: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Abstract
La generazione personalizzata di video da testo mira a produrre video di alta qualità guidati da prompt testuali e riferimenti a soggetti. Gli approcci attuali, progettati per singoli soggetti, incontrano difficoltà nel gestire più soggetti, uno scenario più complesso e pratico. In questo lavoro, ci proponiamo di promuovere la personalizzazione di video da testo guidata da più soggetti. Proponiamo CustomVideo, un nuovo framework in grado di generare video che preservano l'identità con la guida di più soggetti. Nello specifico, in primo luogo, favoriamo la co-occorrenza di più soggetti componendoli in un'unica immagine. Inoltre, su un modello di base di diffusione testo-video, progettiamo una strategia di controllo dell'attenzione semplice ma efficace per separare i diversi soggetti nello spazio latente del modello di diffusione. Inoltre, per aiutare il modello a concentrarsi sull'area specifica dell'oggetto, segmentiamo l'oggetto dalle immagini di riferimento fornite e forniamo una maschera dell'oggetto corrispondente per l'apprendimento dell'attenzione. Abbiamo anche raccolto un dataset di generazione di video da testo con più soggetti come benchmark completo, con 69 soggetti individuali e 57 coppie significative. Risultati qualitativi, quantitativi e di studio utente estesi dimostrano la superiorità del nostro metodo rispetto ai precedenti approcci all'avanguardia.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.