Make-A-Protagonist: Generische Videobearbeitung mit einem Ensemble von Experten
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
May 15, 2023
Autoren: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI
Zusammenfassung
Die textgesteuerten Bild- und Video-Diffusionsmodelle haben beispiellose Erfolge bei der Erzeugung realistischer und vielfältiger Inhalte erzielt. In jüngster Zeit haben die Bearbeitung und Variation bestehender Bilder und Videos in diffusionsbasierten generativen Modellen erhebliche Aufmerksamkeit erregt. Bisherige Arbeiten beschränken sich jedoch darauf, Inhalte mit Text zu bearbeiten oder grobe Personalisierungen mithilfe eines einzigen visuellen Hinweises zu ermöglichen, was sie für schwer beschreibbare Inhalte ungeeignet macht, die eine fein abgestimmte und detaillierte Steuerung erfordern. In diesem Zusammenhang schlagen wir ein allgemeines Videobearbeitungsframework namens Make-A-Protagonist vor, das textuelle und visuelle Hinweise nutzt, um Videos zu bearbeiten, mit dem Ziel, Einzelpersonen zu befähigen, die Hauptrolle zu übernehmen. Konkret setzen wir mehrere Experten ein, um das Quellvideo, die Zielhinweise in visueller und textueller Form zu analysieren, und schlagen ein visuell-textuell basiertes Videogenerierungsmodell vor, das eine maskengeführte Denoising-Stichprobenentnahme verwendet, um das gewünschte Ergebnis zu erzeugen. Umfangreiche Ergebnisse demonstrieren die vielseitigen und bemerkenswerten Bearbeitungsfähigkeiten von Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented
success in generating realistic and diverse content. Recently, the editing and
variation of existing images and videos in diffusion-based generative models
have garnered significant attention. However, previous works are limited to
editing content with text or providing coarse personalization using a single
visual clue, rendering them unsuitable for indescribable content that requires
fine-grained and detailed control. In this regard, we propose a generic video
editing framework called Make-A-Protagonist, which utilizes textual and visual
clues to edit videos with the goal of empowering individuals to become the
protagonists. Specifically, we leverage multiple experts to parse source video,
target visual and textual clues, and propose a visual-textual-based video
generation model that employs mask-guided denoising sampling to generate the
desired output. Extensive results demonstrate the versatile and remarkable
editing capabilities of Make-A-Protagonist.