Bewahren Sie Ihre eigene Korrelation: Ein Rausch-Prior für Video-Diffusionsmodelle
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models
May 17, 2023
Autoren: Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
cs.AI
Zusammenfassung
Trotz erheblicher Fortschritte bei der Erzeugung hochwertiger Bilder mithilfe von Diffusionsmodellen steht die Synthese einer Sequenz animierter Frames, die sowohl fotorealistisch als auch zeitlich kohärent sind, noch in den Kinderschuhen. Während umfangreiche Milliarden-große Datensätze für die Bildgenerierung verfügbar sind, ist die Sammlung ähnlich großer Videodaten nach wie vor eine Herausforderung. Zudem ist das Training eines Video-Diffusionsmodells rechenintensiver als das seines Bild-Gegenstücks. In dieser Arbeit untersuchen wir das Feinabstimmen eines vortrainierten Bild-Diffusionsmodells mit Videodaten als praktische Lösung für die Video-Synthese-Aufgabe. Wir stellen fest, dass eine naive Erweiterung des Bild-Rausch-Priors auf einen Video-Rausch-Prior in der Video-Diffusion zu suboptimalen Ergebnissen führt. Unser sorgfältig entworfener Video-Rausch-Prior führt hingegen zu deutlich besseren Leistungen. Umfangreiche experimentelle Validierungen zeigen, dass unser Modell, Preserve Your Own Correlation (PYoCo), state-of-the-art (SOTA) Zero-Shot-Text-zu-Video-Ergebnisse auf den Benchmarks UCF-101 und MSR-VTT erzielt. Es erreicht auch SOTA-Qualität bei der Videogenerierung auf dem kleinskaligen UCF-101-Benchmark mit einem 10-mal kleineren Modell und deutlich weniger Rechenaufwand als der bisherige Stand der Technik.
English
Despite tremendous progress in generating high-quality images using diffusion
models, synthesizing a sequence of animated frames that are both photorealistic
and temporally coherent is still in its infancy. While off-the-shelf
billion-scale datasets for image generation are available, collecting similar
video data of the same scale is still challenging. Also, training a video
diffusion model is computationally much more expensive than its image
counterpart. In this work, we explore finetuning a pretrained image diffusion
model with video data as a practical solution for the video synthesis task. We
find that naively extending the image noise prior to video noise prior in video
diffusion leads to sub-optimal performance. Our carefully designed video noise
prior leads to substantially better performance. Extensive experimental
validation shows that our model, Preserve Your Own Correlation (PYoCo), attains
SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It
also achieves SOTA video generation quality on the small-scale UCF-101
benchmark with a 10times smaller model using significantly less computation
than the prior art.