ChatPaper.aiChatPaper

I2VEdit: Videobewerking geleid door het eerste frame via Image-to-Video Diffusiemodellen

I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models

May 26, 2024
Auteurs: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

Samenvatting

De opmerkelijke generatieve capaciteiten van diffusiemodellen hebben uitgebreid onderzoek gestimuleerd op het gebied van zowel beeld- als videobewerking. In vergelijking met videobewerking, dat extra uitdagingen kent in de tijdsdimensie, heeft beeldbewerking de ontwikkeling gezien van meer diverse, hoogwaardige benaderingen en krachtigere software zoals Photoshop. Gezien dit gat introduceren we een nieuwe en generieke oplossing die de toepasbaarheid van beeldbewerkingstools uitbreidt naar video's door bewerkingen van een enkel frame naar de gehele video te propageren met behulp van een vooraf getraind beeld-naar-video-model. Onze methode, genaamd I2VEdit, behoudt adaptief de visuele en bewegingsintegriteit van de bronvideo afhankelijk van de omvang van de bewerkingen, en behandelt effectief globale bewerkingen, lokale bewerkingen en matige vormveranderingen, wat bestaande methoden niet volledig kunnen bereiken. De kern van onze methode bestaat uit twee hoofdprocessen: Coarse Motion Extraction om basisbewegingspatronen uit te lijnen met de originele video, en Appearance Refinement voor precieze aanpassingen met behulp van fijnmazige aandachtsovereenkomsten. We hebben ook een skip-intervalstrategie geïntegreerd om kwaliteitsverlies door autoregressieve generatie over meerdere videoclips te verminderen. Experimentele resultaten tonen de superieure prestaties van ons framework in fijnmazige videobewerking aan, wat het vermogen aantoont om hoogwaardige, temporeel consistente uitvoer te produceren.
English
The remarkable generative capabilities of diffusion models have motivated extensive research in both image and video editing. Compared to video editing which faces additional challenges in the time dimension, image editing has witnessed the development of more diverse, high-quality approaches and more capable software like Photoshop. In light of this gap, we introduce a novel and generic solution that extends the applicability of image editing tools to videos by propagating edits from a single frame to the entire video using a pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively preserves the visual and motion integrity of the source video depending on the extent of the edits, effectively handling global edits, local edits, and moderate shape changes, which existing methods cannot fully achieve. At the core of our method are two main processes: Coarse Motion Extraction to align basic motion patterns with the original video, and Appearance Refinement for precise adjustments using fine-grained attention matching. We also incorporate a skip-interval strategy to mitigate quality degradation from auto-regressive generation across multiple video clips. Experimental results demonstrate our framework's superior performance in fine-grained video editing, proving its capability to produce high-quality, temporally consistent outputs.
PDF172February 8, 2026