Эффективные модели диффузии видео через декомпозицию контент-кадровых движений-латентных.
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Авторы: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Аннотация
Модели диффузии видео в последнее время сделали большой прогресс в качестве генерации, однако по-прежнему ограничены высокими требованиями к памяти и вычислительным ресурсам. Это происходит потому, что текущие модели диффузии видео часто пытаются обрабатывать видео высокой размерности напрямую. Для решения этой проблемы мы предлагаем модель диффузии скрытых контентов и движения (CMD), новое эффективное расширение предварительно обученных моделей диффузии изображений для генерации видео. Конкретно, мы предлагаем автокодировщик, который лаконично кодирует видео как комбинацию контентного кадра (подобно изображению) и низкоразмерного скрытого представления движения. Первое представляет общий контент, а второе - подлежащее движение в видео. Мы генерируем контентный кадр, донастраивая предварительно обученную модель диффузии изображений, и генерируем скрытое представление движения, обучая новую легковесную модель диффузии. Ключевым новшеством здесь является разработка компактного скрытого пространства, которое может напрямую использовать предварительно обученную модель диффузии изображений, что ранее не делалось в моделях диффузии скрытого видео. Это приводит к значительно лучшему качеству генерации и снижению вычислительных затрат. Например, CMD может генерировать видео разрешением 512x1024 пикселя и длиной 16 кадров в 3,1 секунды, что в 7,7 раз быстрее, чем предыдущие подходы. Более того, CMD достигает значения FVD 212,7 на WebVid-10M, что на 27,3% лучше, чем предыдущий современный показатель 292,4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.Summary
AI-Generated Summary