Fairy : Synthèse vidéo-à-vidéo rapide et parallélisée guidée par instructions
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis
December 20, 2023
Auteurs: Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda
cs.AI
Résumé
Dans cet article, nous présentons Fairy, une adaptation minimaliste mais robuste des modèles de diffusion pour l'édition d'images, les optimisant pour des applications d'édition vidéo. Notre approche repose sur le concept d'attention inter-images basée sur des ancres, un mécanisme qui propage implicitement les caractéristiques de diffusion entre les images, garantissant une cohérence temporelle supérieure et une synthèse de haute fidélité. Fairy ne se contente pas de pallier les limitations des modèles précédents, notamment en termes de mémoire et de vitesse de traitement. Il améliore également la cohérence temporelle grâce à une stratégie unique d'augmentation de données. Cette stratégie rend le modèle équivariant aux transformations affines dans les images source et cible. Remarquablement efficace, Fairy génère des vidéos de 120 images à une résolution de 512x384 (4 secondes à 30 images par seconde) en seulement 14 secondes, surpassant les travaux antérieurs d'au moins 44 fois. Une étude utilisateur approfondie, impliquant 1000 échantillons générés, confirme que notre approche offre une qualité supérieure, surpassant nettement les méthodes établies.
English
In this paper, we introduce Fairy, a minimalist yet robust adaptation of
image-editing diffusion models, enhancing them for video editing applications.
Our approach centers on the concept of anchor-based cross-frame attention, a
mechanism that implicitly propagates diffusion features across frames, ensuring
superior temporal coherence and high-fidelity synthesis. Fairy not only
addresses limitations of previous models, including memory and processing
speed. It also improves temporal consistency through a unique data augmentation
strategy. This strategy renders the model equivariant to affine transformations
in both source and target images. Remarkably efficient, Fairy generates
120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds,
outpacing prior works by at least 44x. A comprehensive user study, involving
1000 generated samples, confirms that our approach delivers superior quality,
decisively outperforming established methods.