Fairy: Síntese Rápida e Paralelizada de Vídeo para Vídeo Orientada por Instruções
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis
December 20, 2023
Autores: Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda
cs.AI
Resumo
Neste artigo, apresentamos o Fairy, uma adaptação minimalista, porém robusta, de modelos de difusão para edição de imagens, aprimorando-os para aplicações de edição de vídeo. Nossa abordagem centra-se no conceito de atenção entre quadros baseada em âncoras, um mecanismo que propaga implicitamente características de difusão entre os quadros, garantindo coerência temporal superior e síntese de alta fidelidade. O Fairy não apenas aborda limitações de modelos anteriores, incluindo memória e velocidade de processamento, mas também melhora a consistência temporal por meio de uma estratégia única de aumento de dados. Essa estratégia torna o modelo equivariante a transformações afins tanto nas imagens de origem quanto nas de destino. Notavelmente eficiente, o Fairy gera vídeos de 120 quadros com resolução 512x384 (4 segundos de duração a 30 FPS) em apenas 14 segundos, superando trabalhos anteriores em pelo menos 44 vezes. Um estudo de usuário abrangente, envolvendo 1000 amostras geradas, confirma que nossa abordagem oferece qualidade superior, superando decisivamente métodos estabelecidos.
English
In this paper, we introduce Fairy, a minimalist yet robust adaptation of
image-editing diffusion models, enhancing them for video editing applications.
Our approach centers on the concept of anchor-based cross-frame attention, a
mechanism that implicitly propagates diffusion features across frames, ensuring
superior temporal coherence and high-fidelity synthesis. Fairy not only
addresses limitations of previous models, including memory and processing
speed. It also improves temporal consistency through a unique data augmentation
strategy. This strategy renders the model equivariant to affine transformations
in both source and target images. Remarkably efficient, Fairy generates
120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds,
outpacing prior works by at least 44x. A comprehensive user study, involving
1000 generated samples, confirms that our approach delivers superior quality,
decisively outperforming established methods.