ChatPaper.aiChatPaper

CogVideoX: Text-zu-Video-Diffusionsmodelle mit einem Experten-Transformer

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

August 12, 2024
Autoren: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI

Zusammenfassung

Wir stellen CogVideoX vor, ein groß angelegtes Diffusions-Transformator-Modell, das für die Erzeugung von Videos basierend auf Texteingaben entwickelt wurde. Um Videodaten effizient zu modellieren, schlagen wir vor, einen 3D Variationalen Autoencoder (VAE) einzusetzen, um Videos entlang sowohl räumlicher als auch zeitlicher Dimensionen zu komprimieren. Zur Verbesserung der Text-Video-Abstimmung schlagen wir einen Experten-Transformator mit dem Experten-adaptiven LayerNorm vor, um die tiefe Fusion zwischen den beiden Modalitäten zu erleichtern. Durch den Einsatz einer progressiven Trainingstechnik ist CogVideoX in der Lage, kohärente, langanhaltende Videos zu erzeugen, die durch bedeutende Bewegungen gekennzeichnet sind. Darüber hinaus entwickeln wir eine effektive Text-Video-Datenverarbeitungspipeline, die verschiedene Datenverarbeitungsstrategien und eine Videobeschreibungsmethode umfasst. Dies trägt signifikant zur Verbesserung der Leistung von CogVideoX bei, wodurch sowohl die Generierungsqualität als auch die semantische Abstimmung verbessert werden. Die Ergebnisse zeigen, dass CogVideoX eine Spitzenleistung sowohl bei mehreren maschinellen Metriken als auch bei menschlichen Bewertungen aufweist. Die Modellgewichte sowohl des 3D Causal VAE als auch von CogVideoX sind öffentlich unter https://github.com/THUDM/CogVideo verfügbar.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.

Summary

AI-Generated Summary

PDF406November 28, 2024