Behoud Je Eigen Correlatie: Een Ruisprior voor Video-diffusiemodellen

Samenvatting

Ondanks enorme vooruitgang in het genereren van hoogwaardige afbeeldingen met behulp van diffusiemodellen, staat het synthetiseren van een reeks geanimeerde frames die zowel fotorealistisch als temporeel coherent zijn nog in de kinderschoenen. Hoewel kant-en-klare datasets op miljardenschaal voor beeldgeneratie beschikbaar zijn, blijft het verzamelen van vergelijkbare videogegevens op dezelfde schaal een uitdaging. Bovendien is het trainen van een videodiffusiemodel computationeel veel duurder dan zijn tegenhanger voor afbeeldingen. In dit werk onderzoeken we het finetunen van een voorgetraind beelddiffusiemodel met videogegevens als een praktische oplossing voor de videosynthesetaak. We ontdekken dat het naïef uitbreiden van de beeldruisprior naar een videoruisprior in videodiffusie leidt tot suboptimale prestaties. Onze zorgvuldig ontworpen videoruisprior resulteert in aanzienlijk betere prestaties. Uitgebreide experimentele validatie toont aan dat ons model, Preserve Your Own Correlation (PYoCo), state-of-the-art (SOTA) zero-shot tekst-naar-video resultaten behaalt op de UCF-101 en MSR-VTT benchmarks. Het bereikt ook SOTA videogeneratiekwaliteit op de kleinschalige UCF-101 benchmark met een 10 keer kleiner model en aanzienlijk minder rekenkracht dan de huidige stand van de techniek.

English

Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a 10times smaller model using significantly less computation than the prior art.

Behoud Je Eigen Correlatie: Een Ruisprior voor Video-diffusiemodellen

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models

Samenvatting

Support