I2VEdit: Монтаж видео с направлением на первый кадр с помощью диффузии изображения в видео моделей
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models
May 26, 2024
Авторы: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Аннотация
Замечательные генеративные возможности моделей диффузии побудили к обширным исследованиям как в области редактирования изображений, так и видео. По сравнению с видеоредактированием, которое сталкивается с дополнительными сложностями во временном измерении, редактирование изображений стало свидетелем развития более разнообразных и качественных подходов и более мощного программного обеспечения, такого как Photoshop. Учитывая эту разницу, мы представляем новое и универсальное решение, которое расширяет применимость инструментов редактирования изображений к видео путем распространения правок с одного кадра на весь видеоролик с использованием предварительно обученной модели изображения-видео. Наш метод, названный I2VEdit, адаптивно сохраняет визуальную и движущуюся целостность исходного видео в зависимости от объема правок, эффективно обрабатывая глобальные правки, локальные правки и умеренные изменения формы, которые существующие методы не могут полностью достичь. В основе нашего метода лежат два основных процесса: Грубое Извлечение Движения для выравнивания основных движущихся шаблонов с оригинальным видео и Улучшение Внешнего Вида для точных коррекций с использованием точного соответствия внимания на мелкие детали. Мы также включаем стратегию пропуска интервала для смягчения деградации качества от авторегрессивной генерации через несколько видеоклипов. Экспериментальные результаты демонстрируют превосходное качество работы нашей структуры в тонком видеоредактировании, доказывая ее способность производить высококачественные, временно согласованные результаты.
English
The remarkable generative capabilities of diffusion models have motivated
extensive research in both image and video editing. Compared to video editing
which faces additional challenges in the time dimension, image editing has
witnessed the development of more diverse, high-quality approaches and more
capable software like Photoshop. In light of this gap, we introduce a novel and
generic solution that extends the applicability of image editing tools to
videos by propagating edits from a single frame to the entire video using a
pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively
preserves the visual and motion integrity of the source video depending on the
extent of the edits, effectively handling global edits, local edits, and
moderate shape changes, which existing methods cannot fully achieve. At the
core of our method are two main processes: Coarse Motion Extraction to align
basic motion patterns with the original video, and Appearance Refinement for
precise adjustments using fine-grained attention matching. We also incorporate
a skip-interval strategy to mitigate quality degradation from auto-regressive
generation across multiple video clips. Experimental results demonstrate our
framework's superior performance in fine-grained video editing, proving its
capability to produce high-quality, temporally consistent outputs.Summary
AI-Generated Summary