VidEdit: Null-Shot und räumlich bewusste textgesteuerte Videobearbeitung
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
June 14, 2023
Autoren: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI
Zusammenfassung
Kürzlich haben diffusionsbasierte generative Modelle bemerkenswerte Erfolge bei der Bildgenerierung und -bearbeitung erzielt. Ihre Anwendung für die Videobearbeitung steht jedoch noch vor wichtigen Herausforderungen. In diesem Artikel stellen wir VidEdit vor, eine neuartige Methode für die null-Shot-Text-basierte Videobearbeitung, die eine starke zeitliche und räumliche Konsistenz gewährleistet. Zunächst schlagen wir vor, atlasbasierte und vortrainierte Text-zu-Bild-Diffusionsmodelle zu kombinieren, um eine trainingsfreie und effiziente Bearbeitungsmethode bereitzustellen, die von Natur aus zeitliche Glattheit erfüllt. Zweitens nutzen wir verfügbare panoptische Segmentierer zusammen mit Kantendetektoren und passen deren Verwendung für die bedingte diffusionsbasierte Atlasbearbeitung an. Dies gewährleistet eine präzise räumliche Kontrolle über Zielregionen, während die Struktur des Originalvideos strikt erhalten bleibt. Quantitative und qualitative Experimente zeigen, dass VidEdit auf dem DAVIS-Datensatz im Hinblick auf semantische Treue, Bildbewahrung und zeitliche Konsistenzmetriken state-of-the-art-Methoden übertrifft. Mit diesem Framework dauert die Verarbeitung eines einzelnen Videos nur etwa eine Minute, und es können mehrere kompatible Bearbeitungen basierend auf einem einzigartigen Textprompt generiert werden. Projektwebseite unter https://videdit.github.io.
English
Recently, diffusion-based generative models have achieved remarkable success
for image generation and edition. However, their use for video editing still
faces important limitations. This paper introduces VidEdit, a novel method for
zero-shot text-based video editing ensuring strong temporal and spatial
consistency. Firstly, we propose to combine atlas-based and pre-trained
text-to-image diffusion models to provide a training-free and efficient editing
method, which by design fulfills temporal smoothness. Secondly, we leverage
off-the-shelf panoptic segmenters along with edge detectors and adapt their use
for conditioned diffusion-based atlas editing. This ensures a fine spatial
control on targeted regions while strictly preserving the structure of the
original video. Quantitative and qualitative experiments show that VidEdit
outperforms state-of-the-art methods on DAVIS dataset, regarding semantic
faithfulness, image preservation, and temporal consistency metrics. With this
framework, processing a single video only takes approximately one minute, and
it can generate multiple compatible edits based on a unique text prompt.
Project web-page at https://videdit.github.io