VidEdit: Null-Shot und räumlich bewusste textgesteuerte Videobearbeitung

Zusammenfassung

Kürzlich haben diffusionsbasierte generative Modelle bemerkenswerte Erfolge bei der Bildgenerierung und -bearbeitung erzielt. Ihre Anwendung für die Videobearbeitung steht jedoch noch vor wichtigen Herausforderungen. In diesem Artikel stellen wir VidEdit vor, eine neuartige Methode für die null-Shot-Text-basierte Videobearbeitung, die eine starke zeitliche und räumliche Konsistenz gewährleistet. Zunächst schlagen wir vor, atlasbasierte und vortrainierte Text-zu-Bild-Diffusionsmodelle zu kombinieren, um eine trainingsfreie und effiziente Bearbeitungsmethode bereitzustellen, die von Natur aus zeitliche Glattheit erfüllt. Zweitens nutzen wir verfügbare panoptische Segmentierer zusammen mit Kantendetektoren und passen deren Verwendung für die bedingte diffusionsbasierte Atlasbearbeitung an. Dies gewährleistet eine präzise räumliche Kontrolle über Zielregionen, während die Struktur des Originalvideos strikt erhalten bleibt. Quantitative und qualitative Experimente zeigen, dass VidEdit auf dem DAVIS-Datensatz im Hinblick auf semantische Treue, Bildbewahrung und zeitliche Konsistenzmetriken state-of-the-art-Methoden übertrifft. Mit diesem Framework dauert die Verarbeitung eines einzelnen Videos nur etwa eine Minute, und es können mehrere kompatible Bearbeitungen basierend auf einem einzigartigen Textprompt generiert werden. Projektwebseite unter https://videdit.github.io.

English

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io

VidEdit: Null-Shot und räumlich bewusste textgesteuerte Videobearbeitung

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

Zusammenfassung

Support