ChatPaper.aiChatPaper

CogVideoX : Modèles de diffusion texte-vidéo avec un transformeur expert

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

August 12, 2024
Auteurs: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI

Résumé

Nous présentons CogVideoX, un modèle de transformateur à diffusion à grande échelle conçu pour générer des vidéos à partir de descriptions textuelles. Pour modéliser efficacement les données vidéo, nous proposons d'utiliser un autoencodeur variationnel 3D (VAE) pour compresser les vidéos à la fois dans les dimensions spatiales et temporelles. Pour améliorer l'alignement texte-vidéo, nous introduisons un transformateur expert doté d'une couche de normalisation adaptative (LayerNorm) afin de faciliter la fusion profonde entre les deux modalités. En employant une technique d'entraînement progressive, CogVideoX est capable de produire des vidéos cohérentes et de longue durée, caractérisées par des mouvements significatifs. De plus, nous développons un pipeline efficace de traitement des données texte-vidéo, incluant diverses stratégies de prétraitement des données et une méthode de sous-titrage vidéo. Cela contribue significativement à améliorer les performances de CogVideoX, en augmentant à la fois la qualité de génération et l'alignement sémantique. Les résultats montrent que CogVideoX atteint des performances de pointe à la fois sur plusieurs métriques automatiques et dans les évaluations humaines. Les poids des modèles du VAE causal 3D et de CogVideoX sont disponibles publiquement à l'adresse https://github.com/THUDM/CogVideo.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.

Summary

AI-Generated Summary

PDF406November 28, 2024