I2VEdit: Videobearbeitung mit Erstbildführung über Bild-zu-Video-Diffusionsmodelle
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models
May 26, 2024
Autoren: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Zusammenfassung
Die bemerkenswerten generativen Fähigkeiten von Diffusionsmodellen haben umfangreiche Forschungen sowohl im Bereich der Bild- als auch der Videobearbeitung angeregt. Im Vergleich zur Videobearbeitung, die zusätzliche Herausforderungen in der Zeitdimension bewältigen muss, hat die Bildbearbeitung die Entwicklung vielfältigerer, hochwertiger Ansätze und leistungsfähigerer Software wie Photoshop erlebt. Angesichts dieser Kluft stellen wir eine neuartige und generische Lösung vor, die die Anwendbarkeit von Bildbearbeitungswerkzeugen auf Videos erweitert, indem Bearbeitungen von einem einzelnen Frame auf das gesamte Video mithilfe eines vorab trainierten Bild-zu-Video-Modells propagiert werden. Unsere Methode, genannt I2VEdit, erhält adaptiv die visuelle und Bewegungsintegrität des Ausgangsvideos abhängig vom Umfang der Bearbeitungen und bewältigt effektiv globale Bearbeitungen, lokale Bearbeitungen und moderate Formänderungen, die bestehende Methoden nicht vollständig erreichen können. Im Kern unserer Methode stehen zwei Hauptprozesse: Grobe Bewegungsextraktion zur Ausrichtung grundlegender Bewegungsmuster mit dem Originalvideo und Erscheinungsfeinabstimmung für präzise Anpassungen mithilfe feinkörniger Aufmerksamkeitsanpassung. Wir integrieren auch eine Skip-Intervall-Strategie, um Qualitätsverschlechterungen durch autoregressive Generierung über mehrere Videoclips hinweg zu mildern. Experimentelle Ergebnisse zeigen die überragende Leistungsfähigkeit unseres Frameworks in der feinkörnigen Videobearbeitung und belegen seine Fähigkeit zur Erzeugung hochwertiger, zeitlich konsistenter Ausgaben.
English
The remarkable generative capabilities of diffusion models have motivated
extensive research in both image and video editing. Compared to video editing
which faces additional challenges in the time dimension, image editing has
witnessed the development of more diverse, high-quality approaches and more
capable software like Photoshop. In light of this gap, we introduce a novel and
generic solution that extends the applicability of image editing tools to
videos by propagating edits from a single frame to the entire video using a
pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively
preserves the visual and motion integrity of the source video depending on the
extent of the edits, effectively handling global edits, local edits, and
moderate shape changes, which existing methods cannot fully achieve. At the
core of our method are two main processes: Coarse Motion Extraction to align
basic motion patterns with the original video, and Appearance Refinement for
precise adjustments using fine-grained attention matching. We also incorporate
a skip-interval strategy to mitigate quality degradation from auto-regressive
generation across multiple video clips. Experimental results demonstrate our
framework's superior performance in fine-grained video editing, proving its
capability to produce high-quality, temporally consistent outputs.Summary
AI-Generated Summary