CogVideoX: Tekst-naar-Video Diffusiemodellen met een Expert Transformer
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
August 12, 2024
Auteurs: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
We introduceren CogVideoX, een grootschalig diffusie-transformer-model ontworpen voor het genereren van video's op basis van tekstprompts. Om videogegevens efficiënt te modelleren, stellen we voor om een 3D Variational Autoencoder (VAE) te gebruiken om video's te comprimeren langs zowel ruimtelijke als temporele dimensies. Om de tekst-video-uitlijning te verbeteren, introduceren we een expert-transformer met expert-adaptieve LayerNorm om de diepe fusie tussen de twee modaliteiten te vergemakkelijken. Door gebruik te maken van een progressieve trainingstechniek is CogVideoX in staat om samenhangende, langdurige video's te produceren die worden gekenmerkt door significante bewegingen. Daarnaast ontwikkelen we een effectieve tekst-video-dataprocessingpijplijn die verschillende gegevensvoorbewerkingsstrategieën en een videobeschrijvingsmethode omvat. Dit helpt aanzienlijk om de prestaties van CogVideoX te verbeteren, zowel wat betreft generatiekwaliteit als semantische uitlijning. Resultaten tonen aan dat CogVideoX state-of-the-art prestaties levert op zowel meerdere machine-metrics als menselijke evaluaties. De modelgewichten van zowel de 3D Causale VAE als CogVideoX zijn publiekelijk beschikbaar op https://github.com/THUDM/CogVideo.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed
for generating videos based on text prompts. To efficently model video data, we
propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along
both spatial and temporal dimensions. To improve the text-video alignment, we
propose an expert transformer with the expert adaptive LayerNorm to facilitate
the deep fusion between the two modalities. By employing a progressive training
technique, CogVideoX is adept at producing coherent, long-duration videos
characterized by significant motions. In addition, we develop an effective
text-video data processing pipeline that includes various data preprocessing
strategies and a video captioning method. It significantly helps enhance the
performance of CogVideoX, improving both generation quality and semantic
alignment. Results show that CogVideoX demonstrates state-of-the-art
performance across both multiple machine metrics and human evaluations. The
model weights of both the 3D Causal VAE and CogVideoX are publicly available at
https://github.com/THUDM/CogVideo.