Preserva tu propia correlación: Un prior de ruido para modelos de difusión de video
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models
May 17, 2023
Autores: Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
cs.AI
Resumen
A pesar del progreso significativo en la generación de imágenes de alta calidad utilizando modelos de difusión, la síntesis de una secuencia de fotogramas animados que sean tanto fotorrealistas como temporalmente coherentes sigue en sus primeras etapas. Si bien existen conjuntos de datos de escala de miles de millones disponibles para la generación de imágenes, recopilar datos de video de una escala similar sigue siendo un desafío. Además, entrenar un modelo de difusión de video es computacionalmente mucho más costoso que su contraparte de imágenes. En este trabajo, exploramos el ajuste fino de un modelo de difusión de imágenes preentrenado con datos de video como una solución práctica para la tarea de síntesis de video. Descubrimos que extender de manera ingenua el ruido previo de imágenes al ruido previo de video en la difusión de video conduce a un rendimiento subóptimo. Nuestro diseño cuidadosamente elaborado del ruido previo de video resulta en un rendimiento sustancialmente mejor. Una validación experimental extensa muestra que nuestro modelo, Preserve Your Own Correlation (PYoCo), alcanza resultados de última generación (SOTA) en la generación de video a partir de texto (zero-shot text-to-video) en los benchmarks UCF-101 y MSR-VTT. También logra una calidad de generación de video de última generación en el benchmark de pequeña escala UCF-101 con un modelo 10 veces más pequeño, utilizando significativamente menos cómputo que las técnicas anteriores.
English
Despite tremendous progress in generating high-quality images using diffusion
models, synthesizing a sequence of animated frames that are both photorealistic
and temporally coherent is still in its infancy. While off-the-shelf
billion-scale datasets for image generation are available, collecting similar
video data of the same scale is still challenging. Also, training a video
diffusion model is computationally much more expensive than its image
counterpart. In this work, we explore finetuning a pretrained image diffusion
model with video data as a practical solution for the video synthesis task. We
find that naively extending the image noise prior to video noise prior in video
diffusion leads to sub-optimal performance. Our carefully designed video noise
prior leads to substantially better performance. Extensive experimental
validation shows that our model, Preserve Your Own Correlation (PYoCo), attains
SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It
also achieves SOTA video generation quality on the small-scale UCF-101
benchmark with a 10times smaller model using significantly less computation
than the prior art.