I2VEdit : Édition vidéo guidée par la première image via des modèles de diffusion image-à-vidéo
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models
May 26, 2024
papers.authors: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
papers.abstract
Les capacités génératives remarquables des modèles de diffusion ont motivé des recherches approfondies dans les domaines de l'édition d'images et de vidéos. Par rapport à l'édition de vidéos, qui fait face à des défis supplémentaires liés à la dimension temporelle, l'édition d'images a vu le développement d'approches plus diversifiées et de haute qualité, ainsi que de logiciels plus performants comme Photoshop. Face à cet écart, nous introduisons une solution novatrice et générique qui étend l'applicabilité des outils d'édition d'images aux vidéos en propageant les modifications d'une seule image à l'ensemble de la vidéo à l'aide d'un modèle pré-entraîné image-à-vidéo. Notre méthode, baptisée I2VEdit, préserve de manière adaptative l'intégrité visuelle et motrice de la vidéo source en fonction de l'étendue des modifications, gérant efficacement les modifications globales, locales et les changements de forme modérés, ce que les méthodes existantes ne parviennent pas à réaliser pleinement. Au cœur de notre méthode se trouvent deux processus principaux : l'Extraction Grossière du Mouvement pour aligner les motifs de mouvement de base avec la vidéo originale, et le Raffinement de l'Apparence pour des ajustements précis grâce à une correspondance d'attention fine. Nous intégrons également une stratégie d'intervalle sautée pour atténuer la dégradation de la qualité due à la génération auto-régressive sur plusieurs clips vidéo. Les résultats expérimentaux démontrent la performance supérieure de notre cadre dans l'édition fine de vidéos, prouvant sa capacité à produire des résultats de haute qualité et temporellement cohérents.
English
The remarkable generative capabilities of diffusion models have motivated
extensive research in both image and video editing. Compared to video editing
which faces additional challenges in the time dimension, image editing has
witnessed the development of more diverse, high-quality approaches and more
capable software like Photoshop. In light of this gap, we introduce a novel and
generic solution that extends the applicability of image editing tools to
videos by propagating edits from a single frame to the entire video using a
pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively
preserves the visual and motion integrity of the source video depending on the
extent of the edits, effectively handling global edits, local edits, and
moderate shape changes, which existing methods cannot fully achieve. At the
core of our method are two main processes: Coarse Motion Extraction to align
basic motion patterns with the original video, and Appearance Refinement for
precise adjustments using fine-grained attention matching. We also incorporate
a skip-interval strategy to mitigate quality degradation from auto-regressive
generation across multiple video clips. Experimental results demonstrate our
framework's superior performance in fine-grained video editing, proving its
capability to produce high-quality, temporally consistent outputs.