Preserva la Tua Correlazione: Un Prior di Rumore per Modelli di Diffusione Video
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models
May 17, 2023
Autori: Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
cs.AI
Abstract
Nonostante i notevoli progressi nella generazione di immagini di alta qualità utilizzando modelli di diffusione, la sintesi di una sequenza di frame animati che siano sia fotorealistici che temporalmente coerenti è ancora in una fase iniziale. Mentre sono disponibili dataset su larga scala per la generazione di immagini, raccogliere dati video di dimensioni simili rimane una sfida. Inoltre, addestrare un modello di diffusione video è computazionalmente molto più costoso rispetto alla sua controparte per immagini. In questo lavoro, esploriamo il fine-tuning di un modello di diffusione per immagini pre-addestrato con dati video come soluzione pratica per il compito di sintesi video. Abbiamo riscontrato che estendere semplicemente il rumore delle immagini al rumore video nei modelli di diffusione video porta a prestazioni subottimali. Il nostro rumore video progettato con cura porta a prestazioni significativamente migliori. Una vasta validazione sperimentale dimostra che il nostro modello, Preserve Your Own Correlation (PYoCo), raggiunge risultati SOTA zero-shot nel text-to-video sui benchmark UCF-101 e MSR-VTT. Inoltre, ottiene una qualità di generazione video SOTA sul benchmark su piccola scala UCF-101 con un modello 10 volte più piccolo, utilizzando significativamente meno calcolo rispetto alle tecniche precedenti.
English
Despite tremendous progress in generating high-quality images using diffusion
models, synthesizing a sequence of animated frames that are both photorealistic
and temporally coherent is still in its infancy. While off-the-shelf
billion-scale datasets for image generation are available, collecting similar
video data of the same scale is still challenging. Also, training a video
diffusion model is computationally much more expensive than its image
counterpart. In this work, we explore finetuning a pretrained image diffusion
model with video data as a practical solution for the video synthesis task. We
find that naively extending the image noise prior to video noise prior in video
diffusion leads to sub-optimal performance. Our carefully designed video noise
prior leads to substantially better performance. Extensive experimental
validation shows that our model, Preserve Your Own Correlation (PYoCo), attains
SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It
also achieves SOTA video generation quality on the small-scale UCF-101
benchmark with a 10times smaller model using significantly less computation
than the prior art.