Fairy: Snelle Parallelle Instructiegestuurde Video-naar-Video Synthese
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis
December 20, 2023
Auteurs: Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda
cs.AI
Samenvatting
In dit artikel introduceren we Fairy, een minimalistische maar robuuste aanpassing van beeldbewerkings-diffusiemodellen, die ze verbetert voor videobewerkingsapplicaties. Onze aanpak draait om het concept van ankergebaseerde cross-frame aandacht, een mechanisme dat diffusiekenmerken impliciet verspreidt over frames, wat superieure temporele coherentie en hoogwaardige synthese garandeert. Fairy adresseert niet alleen de beperkingen van eerdere modellen, waaronder geheugen en verwerkingssnelheid. Het verbetert ook temporele consistentie door een unieke data-augmentatiestrategie. Deze strategie maakt het model equivariant voor affiene transformaties in zowel bron- als doelbeelden. Opmerkelijk efficiënt genereert Fairy 120 frames van 512x384 video’s (4 seconden duur bij 30 FPS) in slechts 14 seconden, wat eerdere werken minstens 44x overtreft. Een uitgebreide gebruikersstudie, met 1000 gegenereerde samples, bevestigt dat onze aanpak superieure kwaliteit levert en gevestigde methodes duidelijk overtreft.
English
In this paper, we introduce Fairy, a minimalist yet robust adaptation of
image-editing diffusion models, enhancing them for video editing applications.
Our approach centers on the concept of anchor-based cross-frame attention, a
mechanism that implicitly propagates diffusion features across frames, ensuring
superior temporal coherence and high-fidelity synthesis. Fairy not only
addresses limitations of previous models, including memory and processing
speed. It also improves temporal consistency through a unique data augmentation
strategy. This strategy renders the model equivariant to affine transformations
in both source and target images. Remarkably efficient, Fairy generates
120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds,
outpacing prior works by at least 44x. A comprehensive user study, involving
1000 generated samples, confirms that our approach delivers superior quality,
decisively outperforming established methods.