MagicProp: Edición de videos basada en difusión mediante propagación de apariencia consciente del movimiento

Resumen

Este artículo aborda el problema de modificar la apariencia visual de videos mientras se preserva su movimiento. Se propone un nuevo marco, denominado MagicProp, que descompone el proceso de edición de videos en dos etapas: edición de apariencia y propagación de apariencia consciente del movimiento. En la primera etapa, MagicProp selecciona un único fotograma del video de entrada y aplica técnicas de edición de imágenes para modificar el contenido y/o el estilo del fotograma. La flexibilidad de estas técnicas permite la edición de regiones arbitrarias dentro del fotograma. En la segunda etapa, MagicProp utiliza el fotograma editado como referencia de apariencia y genera los fotogramas restantes mediante un enfoque de renderizado autorregresivo. Para lograr esto, se desarrolla un modelo de generación condicional basado en difusión, llamado PropDPM, que sintetiza el fotograma objetivo condicionándolo a la apariencia de referencia, el movimiento objetivo y su apariencia previa. El enfoque de edición autorregresivo garantiza la consistencia temporal en los videos resultantes. En general, MagicProp combina la flexibilidad de las técnicas de edición de imágenes con la superior consistencia temporal del modelado autorregresivo, permitiendo la edición flexible de tipos de objetos y estilos estéticos en regiones arbitrarias de videos de entrada mientras se mantiene una buena consistencia temporal entre fotogramas. Experimentos extensos en diversos escenarios de edición de videos demuestran la efectividad de MagicProp.

English

This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.

MagicProp: Edición de videos basada en difusión mediante propagación de apariencia consciente del movimiento

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

Resumen

Support