CogVideoX: Modelos de Difusão de Texto para Vídeo com um Transformer Especializado
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
August 12, 2024
Autores: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI
Resumo
Apresentamos o CogVideoX, um modelo de transformer de difusão em larga escala projetado para gerar vídeos com base em instruções de texto. Para modelar eficientemente dados de vídeo, propomos utilizar um Codificador Variacional 3D (VAE) para comprimir vídeos ao longo das dimensões espaciais e temporais. Para melhorar o alinhamento texto-vídeo, propomos um transformer especializado com o LayerNorm adaptativo de especialistas para facilitar a fusão profunda entre as duas modalidades. Ao empregar uma técnica de treinamento progressivo, o CogVideoX é capaz de produzir vídeos coerentes de longa duração, caracterizados por movimentos significativos. Além disso, desenvolvemos um pipeline eficaz de processamento de dados texto-vídeo que inclui várias estratégias de pré-processamento de dados e um método de legenda de vídeo. Isso ajuda significativamente a melhorar o desempenho do CogVideoX, aprimorando tanto a qualidade da geração quanto o alinhamento semântico. Os resultados mostram que o CogVideoX demonstra um desempenho de ponta em múltiplas métricas de máquina e avaliações humanas. Os pesos do modelo tanto do VAE Causal 3D quanto do CogVideoX estão disponíveis publicamente em https://github.com/THUDM/CogVideo.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed
for generating videos based on text prompts. To efficently model video data, we
propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along
both spatial and temporal dimensions. To improve the text-video alignment, we
propose an expert transformer with the expert adaptive LayerNorm to facilitate
the deep fusion between the two modalities. By employing a progressive training
technique, CogVideoX is adept at producing coherent, long-duration videos
characterized by significant motions. In addition, we develop an effective
text-video data processing pipeline that includes various data preprocessing
strategies and a video captioning method. It significantly helps enhance the
performance of CogVideoX, improving both generation quality and semantic
alignment. Results show that CogVideoX demonstrates state-of-the-art
performance across both multiple machine metrics and human evaluations. The
model weights of both the 3D Causal VAE and CogVideoX are publicly available at
https://github.com/THUDM/CogVideo.Summary
AI-Generated Summary