ChatPaper.aiChatPaper

I2VEdit: Edición de videos guiada por el primer fotograma mediante modelos de difusión de imagen a video

I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models

May 26, 2024
Autores: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

Resumen

Las notables capacidades generativas de los modelos de difusión han impulsado una extensa investigación tanto en la edición de imágenes como de videos. En comparación con la edición de videos, que enfrenta desafíos adicionales en la dimensión temporal, la edición de imágenes ha presenciado el desarrollo de enfoques más diversos y de alta calidad, así como software más avanzado como Photoshop. Ante esta brecha, presentamos una solución novedosa y genérica que amplía la aplicabilidad de las herramientas de edición de imágenes a videos, propagando las ediciones desde un solo fotograma a todo el video utilizando un modelo preentrenado de imagen a video. Nuestro método, denominado I2VEdit, preserva de manera adaptativa la integridad visual y de movimiento del video original según el alcance de las ediciones, manejando eficazmente ediciones globales, locales y cambios moderados de forma, lo cual los métodos existentes no logran completamente. En el núcleo de nuestro método se encuentran dos procesos principales: Extracción de Movimiento Grueso para alinear los patrones básicos de movimiento con el video original, y Refinamiento de Apariencia para ajustes precisos utilizando coincidencias de atención de grano fino. También incorporamos una estrategia de intervalo de salto para mitigar la degradación de calidad en la generación autorregresiva a través de múltiples clips de video. Los resultados experimentales demuestran el rendimiento superior de nuestro marco en la edición de videos de grano fino, probando su capacidad para producir resultados de alta calidad y temporalmente consistentes.
English
The remarkable generative capabilities of diffusion models have motivated extensive research in both image and video editing. Compared to video editing which faces additional challenges in the time dimension, image editing has witnessed the development of more diverse, high-quality approaches and more capable software like Photoshop. In light of this gap, we introduce a novel and generic solution that extends the applicability of image editing tools to videos by propagating edits from a single frame to the entire video using a pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively preserves the visual and motion integrity of the source video depending on the extent of the edits, effectively handling global edits, local edits, and moderate shape changes, which existing methods cannot fully achieve. At the core of our method are two main processes: Coarse Motion Extraction to align basic motion patterns with the original video, and Appearance Refinement for precise adjustments using fine-grained attention matching. We also incorporate a skip-interval strategy to mitigate quality degradation from auto-regressive generation across multiple video clips. Experimental results demonstrate our framework's superior performance in fine-grained video editing, proving its capability to produce high-quality, temporally consistent outputs.

Summary

AI-Generated Summary

PDF182December 12, 2024