VideoGen: Подход к генерации видео высокого разрешения из текста на основе скрытой диффузии с использованием референсов
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
September 1, 2023
Авторы: Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang
cs.AI
Аннотация
В данной статье мы представляем VideoGen — подход к генерации видео по текстовому описанию, который позволяет создавать видео высокой четкости с высокой точностью кадров и сильной временной согласованностью, используя латентную диффузию с опорой на эталонное изображение. Мы используем готовую модель генерации изображений по тексту, такую как Stable Diffusion, для создания изображения с высоким качеством контента на основе текстового запроса, которое служит эталонным изображением для генерации видео. Затем мы вводим эффективный каскадный модуль латентной диффузии, учитывающий как эталонное изображение, так и текстовый запрос, для генерации латентных представлений видео, за которым следует этап временного повышения разрешения на основе потоков для улучшения временного разрешения. Наконец, мы преобразуем латентные представления видео в видео высокой четкости с помощью улучшенного видеодекодера. Во время обучения мы используем первый кадр эталонного видео в качестве эталонного изображения для обучения каскадного модуля латентной диффузии. Основные особенности нашего подхода включают: эталонное изображение, созданное моделью генерации изображений по тексту, повышает визуальную точность; его использование в качестве условия позволяет диффузионной модели сосредоточиться на изучении динамики видео; видеодекодер обучается на неразмеченных видеоданных, что позволяет использовать высококачественные и легко доступные видео. VideoGen устанавливает новый эталон в области генерации видео по тексту как по качественным, так и по количественным показателям.
English
In this paper, we present VideoGen, a text-to-video generation approach,
which can generate a high-definition video with high frame fidelity and strong
temporal consistency using reference-guided latent diffusion. We leverage an
off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to
generate an image with high content quality from the text prompt, as a
reference image to guide video generation. Then, we introduce an efficient
cascaded latent diffusion module conditioned on both the reference image and
the text prompt, for generating latent video representations, followed by a
flow-based temporal upsampling step to improve the temporal resolution.
Finally, we map latent video representations into a high-definition video
through an enhanced video decoder. During training, we use the first frame of a
ground-truth video as the reference image for training the cascaded latent
diffusion module. The main characterises of our approach include: the reference
image generated by the text-to-image model improves the visual fidelity; using
it as the condition makes the diffusion model focus more on learning the video
dynamics; and the video decoder is trained over unlabeled video data, thus
benefiting from high-quality easily-available videos. VideoGen sets a new
state-of-the-art in text-to-video generation in terms of both qualitative and
quantitative evaluation.