MagicProp : Édition vidéo basée sur la diffusion via la propagation d'apparence prenant en compte le mouvement
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
September 2, 2023
Auteurs: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI
Résumé
Cet article traite du problème de la modification de l'apparence visuelle des vidéos tout en préservant leur mouvement. Un nouveau cadre, nommé MagicProp, est proposé, qui décompose le processus d'édition vidéo en deux étapes : l'édition d'apparence et la propagation d'apparence prenant en compte le mouvement. Dans la première étape, MagicProp sélectionne une seule image de la vidéo d'entrée et applique des techniques d'édition d'image pour modifier le contenu et/ou le style de l'image. La flexibilité de ces techniques permet l'édition de régions arbitraires au sein de l'image. Dans la deuxième étape, MagicProp utilise l'image modifiée comme référence d'apparence et génère les images restantes en utilisant une approche de rendu autorégressive. Pour ce faire, un modèle de génération conditionnelle basé sur la diffusion, appelé PropDPM, est développé, qui synthétise l'image cible en se basant sur l'apparence de référence, le mouvement cible et son apparence précédente. L'approche d'édition autorégressive garantit la cohérence temporelle dans les vidéos résultantes. Globalement, MagicProp combine la flexibilité des techniques d'édition d'image avec la supérieure cohérence temporelle de la modélisation autorégressive, permettant une édition flexible des types d'objets et des styles esthétiques dans des régions arbitraires des vidéos d'entrée tout en maintenant une bonne cohérence temporelle entre les images. Des expériences approfondies dans divers scénarios d'édition vidéo démontrent l'efficacité de MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.