ChatPaper.aiChatPaper

MagicProp: Редактирование видео на основе диффузии с использованием распространения внешнего вида с учетом движения

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

September 2, 2023
Авторы: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI

Аннотация

В данной статье рассматривается проблема изменения визуального оформления видео с сохранением их движения. Предлагается новый подход под названием MagicProp, который разделяет процесс редактирования видео на два этапа: редактирование внешнего вида и распространение внешнего вида с учетом движения. На первом этапе MagicProp выбирает один кадр из входного видео и применяет методы редактирования изображений для изменения содержания и/или стиля кадра. Гибкость этих методов позволяет редактировать произвольные области в пределах кадра. На втором этапе MagicProp использует отредактированный кадр в качестве эталона внешнего вида и генерирует оставшиеся кадры с помощью авторегрессивного подхода к рендерингу. Для этого разработана диффузионная модель условной генерации PropDPM, которая синтезирует целевой кадр, учитывая эталонный внешний вид, целевое движение и предыдущий внешний вид. Авторегрессивный подход к редактированию обеспечивает временную согласованность в результирующих видео. В целом, MagicProp сочетает гибкость методов редактирования изображений с превосходной временной согласованностью авторегрессивного моделирования, позволяя гибко редактировать типы объектов и эстетические стили в произвольных областях входных видео при сохранении хорошей временной согласованности между кадрами. Многочисленные эксперименты в различных сценариях редактирования видео демонстрируют эффективность MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.
PDF60December 15, 2024