MagicProp: Modifica video basata su diffusione tramite propagazione dell'aspetto consapevole del movimento

Abstract

Questo articolo affronta il problema della modifica dell'aspetto visivo dei video mantenendo inalterato il loro movimento. Viene proposto un nuovo framework, denominato MagicProp, che scompone il processo di editing video in due fasi: modifica dell'aspetto e propagazione dell'aspetto consapevole del movimento. Nella prima fase, MagicProp seleziona un singolo fotogramma dal video di input e applica tecniche di editing delle immagini per modificare il contenuto e/o lo stile del fotogramma. La flessibilità di queste tecniche consente la modifica di regioni arbitrarie all'interno del fotogramma. Nella seconda fase, MagicProp utilizza il fotogramma modificato come riferimento di aspetto e genera i fotogrammi rimanenti utilizzando un approccio di rendering autoregressivo. A tal fine, viene sviluppato un modello di generazione condizionale basato su diffusione, chiamato PropDPM, che sintetizza il fotogramma target condizionandolo sull'aspetto di riferimento, sul movimento target e sul suo aspetto precedente. L'approccio di editing autoregressivo garantisce la coerenza temporale nei video risultanti. In sintesi, MagicProp combina la flessibilità delle tecniche di editing delle immagini con la superiore coerenza temporale della modellazione autoregressiva, consentendo una modifica flessibile dei tipi di oggetti e degli stili estetici in regioni arbitrarie dei video di input, mantenendo una buona coerenza temporale tra i fotogrammi. Esperimenti estensivi in vari scenari di editing video dimostrano l'efficacia di MagicProp.

English

This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.

MagicProp: Modifica video basata su diffusione tramite propagazione dell'aspetto consapevole del movimento

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

Abstract

Support