ChatPaper.aiChatPaper

MagicProp: Edição de Vídeo Baseada em Difusão via Propagação de Aparência Consciente do Movimento

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

September 2, 2023
Autores: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI

Resumo

Este artigo aborda o problema de modificar a aparência visual de vídeos enquanto preserva seu movimento. Um novo framework, denominado MagicProp, é proposto, o qual desacopla o processo de edição de vídeo em dois estágios: edição de aparência e propagação de aparência com consciência de movimento. No primeiro estágio, o MagicProp seleciona um único quadro do vídeo de entrada e aplica técnicas de edição de imagem para modificar o conteúdo e/ou o estilo do quadro. A flexibilidade dessas técnicas permite a edição de regiões arbitrárias dentro do quadro. No segundo estágio, o MagicProp utiliza o quadro editado como referência de aparência e gera os quadros restantes usando uma abordagem de renderização autoregressiva. Para isso, um modelo de geração condicional baseado em difusão, chamado PropDPM, é desenvolvido, o qual sintetiza o quadro alvo condicionando-se na aparência de referência, no movimento alvo e na aparência anterior. A abordagem de edição autoregressiva garante consistência temporal nos vídeos resultantes. No geral, o MagicProp combina a flexibilidade das técnicas de edição de imagem com a superior consistência temporal da modelagem autoregressiva, permitindo a edição flexível de tipos de objetos e estilos estéticos em regiões arbitrárias de vídeos de entrada, mantendo uma boa consistência temporal entre os quadros. Experimentações extensas em diversos cenários de edição de vídeo demonstram a efetividade do MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.
PDF60February 8, 2026