LAVIE: Генерация высококачественного видео с использованием каскадных моделей латентной диффузии
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
September 26, 2023
Авторы: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Аннотация
Данная работа направлена на создание высококачественной модели генерации видео из текста (Text-to-Video, T2V), используя предварительно обученную модель генерации изображений из текста (Text-to-Image, T2I) в качестве основы. Это крайне важная, но сложная задача, которая требует одновременного решения двух аспектов: а) синтеза визуально реалистичных и временно согласованных видео, а также б) сохранения мощной креативной генеративной природы предварительно обученной T2I модели. Для достижения этой цели мы предлагаем LaVie — интегрированную структуру генерации видео, основанную на каскадных моделях латентной диффузии для видео, включающую базовую T2V модель, модель временной интерполяции и модель супер-разрешения видео. Наши ключевые идеи заключаются в следующем: 1) Мы показываем, что включение простых временных self-attention механизмов в сочетании с ротационным позиционным кодированием адекватно захватывает временные корреляции, присущие видеоданным. 2) Кроме того, мы подтверждаем, что процесс совместной тонкой настройки изображений и видео играет ключевую роль в создании высококачественных и креативных результатов. Для повышения производительности LaVie мы представляем всеобъемлющий и разнообразный видеодатасет под названием Vimeo25M, состоящий из 25 миллионов текстово-видео пар, которые отличаются высоким качеством, разнообразием и эстетической привлекательностью. Многочисленные эксперименты демонстрируют, что LaVie достигает передовых показателей как количественно, так и качественно. Кроме того, мы демонстрируем универсальность предварительно обученных моделей LaVie в различных приложениях, таких как генерация длинных видео и персонализированный синтез видео.
English
This work aims to learn a high-quality text-to-video (T2V) generative model
by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a
highly desirable yet challenging task to simultaneously a) accomplish the
synthesis of visually realistic and temporally coherent videos while b)
preserving the strong creative generation nature of the pre-trained T2I model.
To this end, we propose LaVie, an integrated video generation framework that
operates on cascaded video latent diffusion models, comprising a base T2V
model, a temporal interpolation model, and a video super-resolution model. Our
key insights are two-fold: 1) We reveal that the incorporation of simple
temporal self-attentions, coupled with rotary positional encoding, adequately
captures the temporal correlations inherent in video data. 2) Additionally, we
validate that the process of joint image-video fine-tuning plays a pivotal role
in producing high-quality and creative outcomes. To enhance the performance of
LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M,
consisting of 25 million text-video pairs that prioritize quality, diversity,
and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves
state-of-the-art performance both quantitatively and qualitatively.
Furthermore, we showcase the versatility of pre-trained LaVie models in various
long video generation and personalized video synthesis applications.