Make-A-Protagonist: Modifica Video Generica con un Ensemble di Esperti
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
May 15, 2023
Autori: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI
Abstract
I modelli di diffusione per immagini e video guidati da testo hanno raggiunto un successo senza precedenti nella generazione di contenuti realistici e diversificati. Recentemente, la modifica e la variazione di immagini e video esistenti nei modelli generativi basati su diffusione hanno attirato una significativa attenzione. Tuttavia, i lavori precedenti si limitano a modificare il contenuto con il testo o a fornire una personalizzazione approssimativa utilizzando un singolo indizio visivo, rendendoli inadatti per contenuti indescrivibili che richiedono un controllo fine e dettagliato. A tal proposito, proponiamo un framework generico per la modifica di video chiamato Make-A-Protagonist, che utilizza indizi testuali e visivi per modificare i video con l'obiettivo di permettere agli individui di diventare i protagonisti. Nello specifico, sfruttiamo più esperti per analizzare il video sorgente, gli indizi visivi e testuali target, e proponiamo un modello di generazione video basato su testo e immagini che impiega un campionamento di denoising guidato da maschere per generare l'output desiderato. Risultati estesi dimostrano le capacità di modifica versatili e notevoli di Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented
success in generating realistic and diverse content. Recently, the editing and
variation of existing images and videos in diffusion-based generative models
have garnered significant attention. However, previous works are limited to
editing content with text or providing coarse personalization using a single
visual clue, rendering them unsuitable for indescribable content that requires
fine-grained and detailed control. In this regard, we propose a generic video
editing framework called Make-A-Protagonist, which utilizes textual and visual
clues to edit videos with the goal of empowering individuals to become the
protagonists. Specifically, we leverage multiple experts to parse source video,
target visual and textual clues, and propose a visual-textual-based video
generation model that employs mask-guided denoising sampling to generate the
desired output. Extensive results demonstrate the versatile and remarkable
editing capabilities of Make-A-Protagonist.