ChatPaper.aiChatPaper

CogVideoX: Modelli di diffusione testo-video con un Transformer esperto

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

August 12, 2024
Autori: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI

Abstract

Presentiamo CogVideoX, un modello di trasformatori su larga scala basato su diffusione, progettato per generare video a partire da prompt testuali. Per modellare in modo efficiente i dati video, proponiamo di sfruttare un Variational Autoencoder (VAE) 3D per comprimere i video lungo sia le dimensioni spaziali che temporali. Per migliorare l'allineamento testo-video, introduciamo un trasformatore esperto con LayerNorm adattivo, che facilita la fusione profonda tra le due modalità. Utilizzando una tecnica di addestramento progressivo, CogVideoX è in grado di produrre video coerenti e di lunga durata caratterizzati da movimenti significativi. Inoltre, sviluppiamo una pipeline efficace per l'elaborazione dei dati testo-video, che include varie strategie di pre-elaborazione dei dati e un metodo di descrizione video. Questo contribuisce significativamente a migliorare le prestazioni di CogVideoX, aumentando sia la qualità della generazione che l'allineamento semantico. I risultati dimostrano che CogVideoX raggiunge prestazioni all'avanguardia sia in termini di metriche automatiche che di valutazioni umane. I pesi del modello sia per il 3D Causal VAE che per CogVideoX sono disponibili pubblicamente all'indirizzo https://github.com/THUDM/CogVideo.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.
PDF396November 28, 2024