MagicProp: Diffusion-basierte Videobearbeitung durch bewegungsbewusste Erscheinungspropagation

papers.abstract

Dieses Papier befasst sich mit der Herausforderung, das visuelle Erscheinungsbild von Videos zu verändern, während ihre Bewegung erhalten bleibt. Es wird ein neuartiges Framework namens MagicProp vorgeschlagen, das den Video-Bearbeitungsprozess in zwei Stufen entkoppelt: Erscheinungsbild-Bearbeitung und bewegungsbewusste Erscheinungsbild-Propagierung. In der ersten Stufe wählt MagicProp einen einzelnen Frame aus dem Eingabevideo aus und wendet Bildbearbeitungstechniken an, um den Inhalt und/oder den Stil des Frames zu verändern. Die Flexibilität dieser Techniken ermöglicht die Bearbeitung beliebiger Regionen innerhalb des Frames. In der zweiten Stufe verwendet MagicProp den bearbeiteten Frame als Referenz für das Erscheinungsbild und erzeugt die verbleibenden Frames mithilfe eines autoregressiven Rendering-Ansatzes. Hierfür wird ein diffusionsbasiertes bedingtes Generierungsmodell, genannt PropDPM, entwickelt, das den Ziel-Frame durch die Bedingung auf das Referenz-Erscheinungsbild, die Zielbewegung und das vorherige Erscheinungsbild synthetisiert. Der autoregressive Bearbeitungsansatz gewährleistet die zeitliche Konsistenz in den resultierenden Videos. Insgesamt kombiniert MagicProp die Flexibilität von Bildbearbeitungstechniken mit der überlegenen zeitlichen Konsistenz des autoregressiven Modellierens, wodurch eine flexible Bearbeitung von Objekttypen und ästhetischen Stilen in beliebigen Regionen von Eingabevideos ermöglicht wird, während eine gute zeitliche Konsistenz über die Frames hinweg erhalten bleibt. Umfangreiche Experimente in verschiedenen Video-Bearbeitungsszenarien demonstrieren die Wirksamkeit von MagicProp.

English

This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.

MagicProp: Diffusion-basierte Videobearbeitung durch bewegungsbewusste Erscheinungspropagation

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

papers.abstract

Support