Fairy: Síntese Rápida e Paralelizada de Vídeo para Vídeo Orientada por Instruções

Resumo

Neste artigo, apresentamos o Fairy, uma adaptação minimalista, porém robusta, de modelos de difusão para edição de imagens, aprimorando-os para aplicações de edição de vídeo. Nossa abordagem centra-se no conceito de atenção entre quadros baseada em âncoras, um mecanismo que propaga implicitamente características de difusão entre os quadros, garantindo coerência temporal superior e síntese de alta fidelidade. O Fairy não apenas aborda limitações de modelos anteriores, incluindo memória e velocidade de processamento, mas também melhora a consistência temporal por meio de uma estratégia única de aumento de dados. Essa estratégia torna o modelo equivariante a transformações afins tanto nas imagens de origem quanto nas de destino. Notavelmente eficiente, o Fairy gera vídeos de 120 quadros com resolução 512x384 (4 segundos de duração a 30 FPS) em apenas 14 segundos, superando trabalhos anteriores em pelo menos 44 vezes. Um estudo de usuário abrangente, envolvendo 1000 amostras geradas, confirma que nossa abordagem oferece qualidade superior, superando decisivamente métodos estabelecidos.

English

In this paper, we introduce Fairy, a minimalist yet robust adaptation of image-editing diffusion models, enhancing them for video editing applications. Our approach centers on the concept of anchor-based cross-frame attention, a mechanism that implicitly propagates diffusion features across frames, ensuring superior temporal coherence and high-fidelity synthesis. Fairy not only addresses limitations of previous models, including memory and processing speed. It also improves temporal consistency through a unique data augmentation strategy. This strategy renders the model equivariant to affine transformations in both source and target images. Remarkably efficient, Fairy generates 120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds, outpacing prior works by at least 44x. A comprehensive user study, involving 1000 generated samples, confirms that our approach delivers superior quality, decisively outperforming established methods.

Fairy: Síntese Rápida e Paralelizada de Vídeo para Vídeo Orientada por Instruções

Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Resumo

Support