I2VEdit: Edição de Vídeo Guiada pelo Primeiro Quadro via Modelos de Difusão de Imagem para Vídeo
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models
May 26, 2024
Autores: Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Resumo
As impressionantes capacidades generativas dos modelos de difusão têm motivado pesquisas extensas tanto em edição de imagens quanto de vídeos. Em comparação com a edição de vídeos, que enfrenta desafios adicionais na dimensão temporal, a edição de imagens tem testemunhado o desenvolvimento de abordagens mais diversas e de alta qualidade, além de softwares mais avançados como o Photoshop. Diante dessa lacuna, introduzimos uma solução nova e genérica que estende a aplicabilidade de ferramentas de edição de imagens para vídeos, propagando edições de um único quadro para todo o vídeo usando um modelo pré-treinado de imagem para vídeo. Nosso método, denominado I2VEdit, preserva de forma adaptativa a integridade visual e de movimento do vídeo original, dependendo da extensão das edições, lidando efetivamente com edições globais, edições locais e mudanças moderadas de forma, o que os métodos existentes não conseguem alcançar completamente. No cerne do nosso método estão dois processos principais: Extração de Movimento Grosseiro para alinhar padrões básicos de movimento com o vídeo original, e Refinamento de Aparência para ajustes precisos usando correspondência de atenção em nível granular. Também incorporamos uma estratégia de intervalo de salto para mitigar a degradação de qualidade da geração autorregressiva em múltiplos clipes de vídeo. Resultados experimentais demonstram o desempenho superior do nosso framework em edição de vídeo de alta granularidade, comprovando sua capacidade de produzir saídas de alta qualidade e temporalmente consistentes.
English
The remarkable generative capabilities of diffusion models have motivated
extensive research in both image and video editing. Compared to video editing
which faces additional challenges in the time dimension, image editing has
witnessed the development of more diverse, high-quality approaches and more
capable software like Photoshop. In light of this gap, we introduce a novel and
generic solution that extends the applicability of image editing tools to
videos by propagating edits from a single frame to the entire video using a
pre-trained image-to-video model. Our method, dubbed I2VEdit, adaptively
preserves the visual and motion integrity of the source video depending on the
extent of the edits, effectively handling global edits, local edits, and
moderate shape changes, which existing methods cannot fully achieve. At the
core of our method are two main processes: Coarse Motion Extraction to align
basic motion patterns with the original video, and Appearance Refinement for
precise adjustments using fine-grained attention matching. We also incorporate
a skip-interval strategy to mitigate quality degradation from auto-regressive
generation across multiple video clips. Experimental results demonstrate our
framework's superior performance in fine-grained video editing, proving its
capability to produce high-quality, temporally consistent outputs.