MagicProp: Edición de videos basada en difusión mediante propagación de apariencia consciente del movimiento
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
September 2, 2023
Autores: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI
Resumen
Este artículo aborda el problema de modificar la apariencia visual de videos mientras se preserva su movimiento. Se propone un nuevo marco, denominado MagicProp, que descompone el proceso de edición de videos en dos etapas: edición de apariencia y propagación de apariencia consciente del movimiento. En la primera etapa, MagicProp selecciona un único fotograma del video de entrada y aplica técnicas de edición de imágenes para modificar el contenido y/o el estilo del fotograma. La flexibilidad de estas técnicas permite la edición de regiones arbitrarias dentro del fotograma. En la segunda etapa, MagicProp utiliza el fotograma editado como referencia de apariencia y genera los fotogramas restantes mediante un enfoque de renderizado autorregresivo. Para lograr esto, se desarrolla un modelo de generación condicional basado en difusión, llamado PropDPM, que sintetiza el fotograma objetivo condicionándolo a la apariencia de referencia, el movimiento objetivo y su apariencia previa. El enfoque de edición autorregresivo garantiza la consistencia temporal en los videos resultantes. En general, MagicProp combina la flexibilidad de las técnicas de edición de imágenes con la superior consistencia temporal del modelado autorregresivo, permitiendo la edición flexible de tipos de objetos y estilos estéticos en regiones arbitrarias de videos de entrada mientras se mantiene una buena consistencia temporal entre fotogramas. Experimentos extensos en diversos escenarios de edición de videos demuestran la efectividad de MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.