Fairy: Sintesi Video-to-Video Guidata da Istruzioni con Parallelizzazione Rapida
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis
December 20, 2023
Autori: Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda
cs.AI
Abstract
In questo articolo presentiamo Fairy, un adattamento minimalista ma robusto dei modelli di diffusione per l'editing di immagini, potenziandoli per applicazioni di editing video. Il nostro approccio si concentra sul concetto di attenzione cross-frame basata su ancore, un meccanismo che propaga implicitamente le caratteristiche di diffusione tra i fotogrammi, garantendo una superiore coerenza temporale e una sintesi ad alta fedeltà. Fairy non solo affronta i limiti dei modelli precedenti, inclusi memoria e velocità di elaborazione, ma migliora anche la coerenza temporale attraverso una strategia unica di data augmentation. Questa strategia rende il modello invariante rispetto alle trasformazioni affini sia nelle immagini sorgente che in quelle target. Straordinariamente efficiente, Fairy genera video di 120 fotogrammi a 512x384 (4 secondi di durata a 30 FPS) in soli 14 secondi, superando i lavori precedenti di almeno 44 volte. Uno studio utente completo, che coinvolge 1000 campioni generati, conferma che il nostro approccio offre una qualità superiore, superando decisamente i metodi consolidati.
English
In this paper, we introduce Fairy, a minimalist yet robust adaptation of
image-editing diffusion models, enhancing them for video editing applications.
Our approach centers on the concept of anchor-based cross-frame attention, a
mechanism that implicitly propagates diffusion features across frames, ensuring
superior temporal coherence and high-fidelity synthesis. Fairy not only
addresses limitations of previous models, including memory and processing
speed. It also improves temporal consistency through a unique data augmentation
strategy. This strategy renders the model equivariant to affine transformations
in both source and target images. Remarkably efficient, Fairy generates
120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds,
outpacing prior works by at least 44x. A comprehensive user study, involving
1000 generated samples, confirms that our approach delivers superior quality,
decisively outperforming established methods.