Make-A-Protagonist: Generieke Videobewerking met een Ensemble van Experts
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
May 15, 2023
Auteurs: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI
Samenvatting
De tekstgestuurde beeld- en videodiffusiemodellen hebben ongekend succes geboekt in het genereren van realistische en diverse content. Recentelijk hebben het bewerken en variëren van bestaande beelden en video's in diffusiegebaseerde generatieve modellen aanzienlijke aandacht gekregen. Eerdere werken zijn echter beperkt tot het bewerken van content met tekst of het bieden van grove personalisatie met behulp van een enkele visuele aanwijzing, waardoor ze ongeschikt zijn voor onbeschrijfbare content die fijnmazige en gedetailleerde controle vereist. In dit opzicht stellen we een generiek videobewerkingsframework voor, genaamd Make-A-Protagonist, dat tekstuele en visuele aanwijzingen gebruikt om video's te bewerken met als doel individuen in staat te stellen de hoofdrolspelers te worden. Specifiek maken we gebruik van meerdere experts om de bronvideo, doelvisuele en tekstuele aanwijzingen te analyseren, en stellen we een visueel-tekstueel gebaseerd videogeneratiemodel voor dat maskergeleide denoisingsampling gebruikt om de gewenste output te genereren. Uitgebreide resultaten demonstreren de veelzijdige en opmerkelijke bewerkingsmogelijkheden van Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented
success in generating realistic and diverse content. Recently, the editing and
variation of existing images and videos in diffusion-based generative models
have garnered significant attention. However, previous works are limited to
editing content with text or providing coarse personalization using a single
visual clue, rendering them unsuitable for indescribable content that requires
fine-grained and detailed control. In this regard, we propose a generic video
editing framework called Make-A-Protagonist, which utilizes textual and visual
clues to edit videos with the goal of empowering individuals to become the
protagonists. Specifically, we leverage multiple experts to parse source video,
target visual and textual clues, and propose a visual-textual-based video
generation model that employs mask-guided denoising sampling to generate the
desired output. Extensive results demonstrate the versatile and remarkable
editing capabilities of Make-A-Protagonist.