ChatPaper.aiChatPaper

Make-A-Protagonist : Édition vidéo générique avec un ensemble d'experts

Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

May 15, 2023
Auteurs: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI

Résumé

Les modèles de diffusion d'images et de vidéos pilotés par texte ont atteint un succès sans précédent dans la génération de contenus réalistes et diversifiés. Récemment, l'édition et la variation d'images et de vidéos existantes dans les modèles génératifs basés sur la diffusion ont suscité une attention considérable. Cependant, les travaux précédents se limitent à l'édition de contenu avec du texte ou à la fourniture d'une personnalisation grossière en utilisant un seul indice visuel, les rendant inadaptés pour des contenus indescriptibles nécessitant un contrôle fin et détaillé. À cet égard, nous proposons un cadre générique d'édition vidéo appelé Make-A-Protagonist, qui utilise des indices textuels et visuels pour éditer des vidéos dans le but de permettre aux individus de devenir les protagonistes. Plus précisément, nous exploitons plusieurs experts pour analyser la vidéo source, les indices visuels et textuels cibles, et proposons un modèle de génération vidéo basé sur le visuel et le texte qui emploie un échantillonnage de débruitage guidé par masque pour générer le résultat souhaité. Des résultats approfondis démontrent les capacités d'édition polyvalentes et remarquables de Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.
PDF10December 15, 2024