Make-A-Protagonist: Edição Genérica de Vídeos com um Conjunto de Especialistas
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
May 15, 2023
Autores: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI
Resumo
Os modelos de difusão de imagem e vídeo orientados por texto alcançaram um sucesso sem precedentes na geração de conteúdo realista e diversificado. Recentemente, a edição e variação de imagens e vídeos existentes em modelos generativos baseados em difusão têm recebido atenção significativa. No entanto, trabalhos anteriores limitam-se a editar conteúdo com texto ou fornecer personalização grosseira usando uma única pista visual, tornando-os inadequados para conteúdo indescritível que requer controle refinado e detalhado. Nesse sentido, propomos uma estrutura genérica de edição de vídeo chamada Make-A-Protagonist, que utiliza pistas textuais e visuais para editar vídeos com o objetivo de capacitar indivíduos a se tornarem protagonistas. Especificamente, aproveitamos múltiplos especialistas para analisar o vídeo de origem, pistas visuais e textuais alvo, e propomos um modelo de geração de vídeo baseado em texto e imagem que emprega amostragem de redução de ruído guiada por máscara para gerar o resultado desejado. Resultados extensivos demonstram as capacidades versáteis e notáveis de edição do Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented
success in generating realistic and diverse content. Recently, the editing and
variation of existing images and videos in diffusion-based generative models
have garnered significant attention. However, previous works are limited to
editing content with text or providing coarse personalization using a single
visual clue, rendering them unsuitable for indescribable content that requires
fine-grained and detailed control. In this regard, we propose a generic video
editing framework called Make-A-Protagonist, which utilizes textual and visual
clues to edit videos with the goal of empowering individuals to become the
protagonists. Specifically, we leverage multiple experts to parse source video,
target visual and textual clues, and propose a visual-textual-based video
generation model that employs mask-guided denoising sampling to generate the
desired output. Extensive results demonstrate the versatile and remarkable
editing capabilities of Make-A-Protagonist.