ChatPaper.aiChatPaper

Сохраняйте свою корреляцию: шумовой априори для моделей диффузии видео

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models

May 17, 2023
Авторы: Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
cs.AI

Аннотация

Несмотря на значительный прогресс в создании высококачественных изображений с использованием диффузионных моделей, синтез последовательности анимированных кадров, которые одновременно являются фотореалистичными и временно согласованными, всё ещё находится на начальной стадии. Хотя доступны готовые наборы данных для генерации изображений масштаба в миллиарды, сбор аналогичных видео данных такого же масштаба остаётся сложной задачей. Кроме того, обучение видео-диффузионной модели требует значительно больше вычислительных ресурсов по сравнению с её аналогом для изображений. В данной работе мы исследуем дообучение предварительно обученной диффузионной модели для изображений на видео данных как практическое решение задачи синтеза видео. Мы обнаруживаем, что простое расширение априорного распределения шума для изображений до априорного распределения шума для видео в видео-дифузии приводит к неоптимальной производительности. Наш тщательно разработанный априорный шум для видео обеспечивает существенно лучшие результаты. Обширные экспериментальные проверки показывают, что наша модель, Preserve Your Own Correlation (PYoCo), достигает наилучших результатов (SOTA) в задаче zero-shot текстового преобразования в видео на бенчмарках UCF-101 и MSR-VTT. Она также демонстрирует наивысшее качество генерации видео на небольшом бенчмарке UCF-101, используя модель в 10 раз меньшего размера и значительно меньше вычислительных ресурсов по сравнению с предыдущими подходами.
English
Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a 10times smaller model using significantly less computation than the prior art.
PDF10December 15, 2024