MagicProp: Diffusiegebaseerde videobewerking via bewegingbewuste uiterlijkpropagatie
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
September 2, 2023
Auteurs: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI
Samenvatting
Dit artikel behandelt het probleem van het aanpassen van de visuele weergave van video's terwijl hun beweging behouden blijft. Een nieuw raamwerk, genaamd MagicProp, wordt voorgesteld, dat het videobewerkingsproces ontkoppelt in twee fasen: uiterlijkbewerking en bewegingbewuste uiterlijkpropagatie. In de eerste fase selecteert MagicProp een enkel frame uit de invoervideo en past beeldbewerkingstechnieken toe om de inhoud en/of stijl van het frame aan te passen. De flexibiliteit van deze technieken maakt het mogelijk om willekeurige regio's binnen het frame te bewerken. In de tweede fase gebruikt MagicProp het bewerkte frame als een uiterlijkreferentie en genereert de overige frames met behulp van een autoregressieve weergavebenadering. Om dit te bereiken, wordt een op diffusie gebaseerd conditioneel generatiemodel, genaamd PropDPM, ontwikkeld, dat het doel frame synthetiseert door te conditioneren op de referentieweergave, de doelbeweging en het vorige uiterlijk. De autoregressieve bewerkingsbenadering zorgt voor temporele consistentie in de resulterende video's. Over het algemeen combineert MagicProp de flexibiliteit van beeldbewerkingstechnieken met de superieure temporele consistentie van autoregressieve modellering, waardoor flexibele bewerking van objecttypen en esthetische stijlen in willekeurige regio's van invoervideo's mogelijk wordt, terwijl goede temporele consistentie tussen frames behouden blijft. Uitgebreide experimenten in verschillende videobewerkingsscenario's demonstreren de effectiviteit van MagicProp.
English
This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.