CogVideoX: Modelos de Difusión de Texto a Video con un Transformador Experto
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
August 12, 2024
Autores: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI
Resumen
Presentamos CogVideoX, un modelo de transformador de difusión a gran escala diseñado para generar videos basados en indicaciones de texto. Para modelar eficientemente datos de video, proponemos utilizar un Autoencoder Variacional 3D (VAE) para comprimir videos a lo largo de dimensiones espaciales y temporales. Para mejorar la alineación texto-video, proponemos un transformador experto con LayerNorm adaptativo experto para facilitar la fusión profunda entre las dos modalidades. Al emplear una técnica de entrenamiento progresivo, CogVideoX es capaz de producir videos coherentes de larga duración caracterizados por movimientos significativos. Además, desarrollamos un eficaz proceso de procesamiento de datos texto-video que incluye diversas estrategias de preprocesamiento de datos y un método de subtitulado de video. Esto ayuda significativamente a mejorar el rendimiento de CogVideoX, mejorando tanto la calidad de generación como la alineación semántica. Los resultados muestran que CogVideoX demuestra un rendimiento de vanguardia en múltiples métricas de máquina y evaluaciones humanas. Los pesos del modelo tanto del VAE Causal 3D como de CogVideoX están disponibles públicamente en https://github.com/THUDM/CogVideo.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed
for generating videos based on text prompts. To efficently model video data, we
propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along
both spatial and temporal dimensions. To improve the text-video alignment, we
propose an expert transformer with the expert adaptive LayerNorm to facilitate
the deep fusion between the two modalities. By employing a progressive training
technique, CogVideoX is adept at producing coherent, long-duration videos
characterized by significant motions. In addition, we develop an effective
text-video data processing pipeline that includes various data preprocessing
strategies and a video captioning method. It significantly helps enhance the
performance of CogVideoX, improving both generation quality and semantic
alignment. Results show that CogVideoX demonstrates state-of-the-art
performance across both multiple machine metrics and human evaluations. The
model weights of both the 3D Causal VAE and CogVideoX are publicly available at
https://github.com/THUDM/CogVideo.Summary
AI-Generated Summary