Fairy: Sintesi Video-to-Video Guidata da Istruzioni con Parallelizzazione Rapida

Abstract

In questo articolo presentiamo Fairy, un adattamento minimalista ma robusto dei modelli di diffusione per l'editing di immagini, potenziandoli per applicazioni di editing video. Il nostro approccio si concentra sul concetto di attenzione cross-frame basata su ancore, un meccanismo che propaga implicitamente le caratteristiche di diffusione tra i fotogrammi, garantendo una superiore coerenza temporale e una sintesi ad alta fedeltà. Fairy non solo affronta i limiti dei modelli precedenti, inclusi memoria e velocità di elaborazione, ma migliora anche la coerenza temporale attraverso una strategia unica di data augmentation. Questa strategia rende il modello invariante rispetto alle trasformazioni affini sia nelle immagini sorgente che in quelle target. Straordinariamente efficiente, Fairy genera video di 120 fotogrammi a 512x384 (4 secondi di durata a 30 FPS) in soli 14 secondi, superando i lavori precedenti di almeno 44 volte. Uno studio utente completo, che coinvolge 1000 campioni generati, conferma che il nostro approccio offre una qualità superiore, superando decisamente i metodi consolidati.

English

In this paper, we introduce Fairy, a minimalist yet robust adaptation of image-editing diffusion models, enhancing them for video editing applications. Our approach centers on the concept of anchor-based cross-frame attention, a mechanism that implicitly propagates diffusion features across frames, ensuring superior temporal coherence and high-fidelity synthesis. Fairy not only addresses limitations of previous models, including memory and processing speed. It also improves temporal consistency through a unique data augmentation strategy. This strategy renders the model equivariant to affine transformations in both source and target images. Remarkably efficient, Fairy generates 120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds, outpacing prior works by at least 44x. A comprehensive user study, involving 1000 generated samples, confirms that our approach delivers superior quality, decisively outperforming established methods.

Fairy: Sintesi Video-to-Video Guidata da Istruzioni con Parallelizzazione Rapida

Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Abstract

Support