MagicProp: Diffusiegebaseerde videobewerking via bewegingbewuste uiterlijkpropagatie

Samenvatting

Dit artikel behandelt het probleem van het aanpassen van de visuele weergave van video's terwijl hun beweging behouden blijft. Een nieuw raamwerk, genaamd MagicProp, wordt voorgesteld, dat het videobewerkingsproces ontkoppelt in twee fasen: uiterlijkbewerking en bewegingbewuste uiterlijkpropagatie. In de eerste fase selecteert MagicProp een enkel frame uit de invoervideo en past beeldbewerkingstechnieken toe om de inhoud en/of stijl van het frame aan te passen. De flexibiliteit van deze technieken maakt het mogelijk om willekeurige regio's binnen het frame te bewerken. In de tweede fase gebruikt MagicProp het bewerkte frame als een uiterlijkreferentie en genereert de overige frames met behulp van een autoregressieve weergavebenadering. Om dit te bereiken, wordt een op diffusie gebaseerd conditioneel generatiemodel, genaamd PropDPM, ontwikkeld, dat het doel frame synthetiseert door te conditioneren op de referentieweergave, de doelbeweging en het vorige uiterlijk. De autoregressieve bewerkingsbenadering zorgt voor temporele consistentie in de resulterende video's. Over het algemeen combineert MagicProp de flexibiliteit van beeldbewerkingstechnieken met de superieure temporele consistentie van autoregressieve modellering, waardoor flexibele bewerking van objecttypen en esthetische stijlen in willekeurige regio's van invoervideo's mogelijk wordt, terwijl goede temporele consistentie tussen frames behouden blijft. Uitgebreide experimenten in verschillende videobewerkingsscenario's demonstreren de effectiviteit van MagicProp.

English

This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.

MagicProp: Diffusiegebaseerde videobewerking via bewegingbewuste uiterlijkpropagatie

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

Samenvatting

Support