Фотореалистичная генерация видео с использованием диффузионных моделей
Photorealistic Video Generation with Diffusion Models
December 11, 2023
Авторы: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI
Аннотация
Мы представляем W.A.L.T — подход на основе трансформеров для создания фотореалистичных видео с использованием диффузионного моделирования. Наш подход включает два ключевых проектных решения. Во-первых, мы используем каузальный энкодер для совместного сжатия изображений и видео в едином латентном пространстве, что позволяет обучать и генерировать данные в разных модальностях. Во-вторых, для повышения эффективности использования памяти и обучения мы применяем архитектуру оконного внимания, адаптированную для совместного пространственного и пространственно-временного генеративного моделирования. В совокупности эти решения позволяют нам достичь наилучших результатов на стандартных бенчмарках для генерации видео (UCF-101 и Kinetics-600) и изображений (ImageNet) без использования классификатор-фри гида. Наконец, мы также обучаем каскад из трех моделей для задачи генерации видео по тексту, включающий базовую латентную диффузионную модель для видео и две диффузионные модели для повышения разрешения видео, что позволяет генерировать видео с разрешением 512×896 и частотой 8 кадров в секунду.
English
We present W.A.L.T, a transformer-based approach for photorealistic video
generation via diffusion modeling. Our approach has two key design decisions.
First, we use a causal encoder to jointly compress images and videos within a
unified latent space, enabling training and generation across modalities.
Second, for memory and training efficiency, we use a window attention
architecture tailored for joint spatial and spatiotemporal generative modeling.
Taken together these design decisions enable us to achieve state-of-the-art
performance on established video (UCF-101 and Kinetics-600) and image
(ImageNet) generation benchmarks without using classifier free guidance.
Finally, we also train a cascade of three models for the task of text-to-video
generation consisting of a base latent video diffusion model, and two video
super-resolution diffusion models to generate videos of 512 times 896
resolution at 8 frames per second.