MagicProp: Edição de Vídeo Baseada em Difusão via Propagação de Aparência Consciente do Movimento
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
September 2, 2023
Autores: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI
Resumo
Este artigo aborda o problema de modificar a aparência visual de vídeos
enquanto preserva seu movimento. Um novo framework, denominado MagicProp, é
proposto, o qual desacopla o processo de edição de vídeo em dois estágios:
edição de aparência e propagação de aparência com consciência de movimento.
No primeiro estágio, o MagicProp seleciona um único quadro do vídeo de entrada
e aplica técnicas de edição de imagem para modificar o conteúdo e/ou o estilo
do quadro. A flexibilidade dessas técnicas permite a edição de regiões
arbitrárias dentro do quadro. No segundo estágio, o MagicProp utiliza o quadro
editado como referência de aparência e gera os quadros restantes usando uma
abordagem de renderização autoregressiva. Para isso, um modelo de geração
condicional baseado em difusão, chamado PropDPM, é desenvolvido, o qual
sintetiza o quadro alvo condicionando-se na aparência de referência, no
movimento alvo e na aparência anterior. A abordagem de edição autoregressiva
garante consistência temporal nos vídeos resultantes. No geral, o MagicProp
combina a flexibilidade das técnicas de edição de imagem com a superior
consistência temporal da modelagem autoregressiva, permitindo a edição
flexível de tipos de objetos e estilos estéticos em regiões arbitrárias de
vídeos de entrada, mantendo uma boa consistência temporal entre os quadros.
Experimentações extensas em diversos cenários de edição de vídeo demonstram a
efetividade do MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.