I2VEdit: Modifica Video Guidata dal Primo Fotogramma tramite Modelli di Diffusione da Immagine a Video
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models
May 26, 2024
Autori: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Abstract
Le straordinarie capacità generative dei modelli di diffusione hanno stimolato un'ampia ricerca sia nel campo dell'editing di immagini che di video. Rispetto all'editing video, che deve affrontare ulteriori sfide nella dimensione temporale, l'editing di immagini ha visto lo sviluppo di approcci più diversificati e di alta qualità, nonché software più avanzati come Photoshop. Alla luce di questo divario, introduciamo una soluzione innovativa e generica che estende l'applicabilità degli strumenti di editing di immagini ai video, propagando le modifiche da un singolo fotogramma all'intero video utilizzando un modello pre-addestrato da immagine a video. Il nostro metodo, denominato I2VEdit, preserva in modo adattivo l'integrità visiva e del movimento del video sorgente in base all'entità delle modifiche, gestendo efficacemente modifiche globali, locali e moderati cambiamenti di forma, che i metodi esistenti non riescono a ottenere completamente. Al centro del nostro metodo ci sono due processi principali: l'Estrazione del Movimento Approssimativo per allineare i modelli di movimento di base con il video originale, e il Raffinamento dell'Aspetto per aggiustamenti precisi utilizzando il matching dell'attenzione a grana fine. Incorporiamo inoltre una strategia di intervallo saltato per mitigare il degrado della qualità derivante dalla generazione auto-regressiva su più clip video. I risultati sperimentali dimostrano la performance superiore del nostro framework nell'editing video di precisione, provando la sua capacità di produrre output di alta qualità e temporalmente coerenti.
English
The remarkable generative capabilities of diffusion models have motivated
extensive research in both image and video editing. Compared to video editing
which faces additional challenges in the time dimension, image editing has
witnessed the development of more diverse, high-quality approaches and more
capable software like Photoshop. In light of this gap, we introduce a novel and
generic solution that extends the applicability of image editing tools to
videos by propagating edits from a single frame to the entire video using a
pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively
preserves the visual and motion integrity of the source video depending on the
extent of the edits, effectively handling global edits, local edits, and
moderate shape changes, which existing methods cannot fully achieve. At the
core of our method are two main processes: Coarse Motion Extraction to align
basic motion patterns with the original video, and Appearance Refinement for
precise adjustments using fine-grained attention matching. We also incorporate
a skip-interval strategy to mitigate quality degradation from auto-regressive
generation across multiple video clips. Experimental results demonstrate our
framework's superior performance in fine-grained video editing, proving its
capability to produce high-quality, temporally consistent outputs.