MagicProp: Modifica video basata su diffusione tramite propagazione dell'aspetto consapevole del movimento
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
September 2, 2023
Autori: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI
Abstract
Questo articolo affronta il problema della modifica dell'aspetto visivo dei video mantenendo inalterato il loro movimento. Viene proposto un nuovo framework, denominato MagicProp, che scompone il processo di editing video in due fasi: modifica dell'aspetto e propagazione dell'aspetto consapevole del movimento. Nella prima fase, MagicProp seleziona un singolo fotogramma dal video di input e applica tecniche di editing delle immagini per modificare il contenuto e/o lo stile del fotogramma. La flessibilità di queste tecniche consente la modifica di regioni arbitrarie all'interno del fotogramma. Nella seconda fase, MagicProp utilizza il fotogramma modificato come riferimento di aspetto e genera i fotogrammi rimanenti utilizzando un approccio di rendering autoregressivo. A tal fine, viene sviluppato un modello di generazione condizionale basato su diffusione, chiamato PropDPM, che sintetizza il fotogramma target condizionandolo sull'aspetto di riferimento, sul movimento target e sul suo aspetto precedente. L'approccio di editing autoregressivo garantisce la coerenza temporale nei video risultanti. In sintesi, MagicProp combina la flessibilità delle tecniche di editing delle immagini con la superiore coerenza temporale della modellazione autoregressiva, consentendo una modifica flessibile dei tipi di oggetti e degli stili estetici in regioni arbitrarie dei video di input, mantenendo una buona coerenza temporale tra i fotogrammi. Esperimenti estensivi in vari scenari di editing video dimostrano l'efficacia di MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.