MagicProp: Diffusion-basierte Videobearbeitung durch bewegungsbewusste Erscheinungspropagation
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
September 2, 2023
Autoren: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI
Zusammenfassung
Dieses Papier befasst sich mit der Herausforderung, das visuelle Erscheinungsbild von Videos zu verändern, während ihre Bewegung erhalten bleibt. Es wird ein neuartiges Framework namens MagicProp vorgeschlagen, das den Video-Bearbeitungsprozess in zwei Stufen entkoppelt: Erscheinungsbild-Bearbeitung und bewegungsbewusste Erscheinungsbild-Propagierung. In der ersten Stufe wählt MagicProp einen einzelnen Frame aus dem Eingabevideo aus und wendet Bildbearbeitungstechniken an, um den Inhalt und/oder den Stil des Frames zu verändern. Die Flexibilität dieser Techniken ermöglicht die Bearbeitung beliebiger Regionen innerhalb des Frames. In der zweiten Stufe verwendet MagicProp den bearbeiteten Frame als Referenz für das Erscheinungsbild und erzeugt die verbleibenden Frames mithilfe eines autoregressiven Rendering-Ansatzes. Hierfür wird ein diffusionsbasiertes bedingtes Generierungsmodell, genannt PropDPM, entwickelt, das den Ziel-Frame durch die Bedingung auf das Referenz-Erscheinungsbild, die Zielbewegung und das vorherige Erscheinungsbild synthetisiert. Der autoregressive Bearbeitungsansatz gewährleistet die zeitliche Konsistenz in den resultierenden Videos. Insgesamt kombiniert MagicProp die Flexibilität von Bildbearbeitungstechniken mit der überlegenen zeitlichen Konsistenz des autoregressiven Modellierens, wodurch eine flexible Bearbeitung von Objekttypen und ästhetischen Stilen in beliebigen Regionen von Eingabevideos ermöglicht wird, während eine gute zeitliche Konsistenz über die Frames hinweg erhalten bleibt. Umfangreiche Experimente in verschiedenen Video-Bearbeitungsszenarien demonstrieren die Wirksamkeit von MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.