ChatPaper.aiChatPaper

CogVideoX: 전문 Transformer를 사용한 텍스트 대 비디오 확산 모델

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

August 12, 2024
저자: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
cs.AI

초록

우리는 CogVideoX를 소개합니다. 이는 텍스트 프롬프트를 기반으로 비디오를 생성하기 위해 설계된 대규모 확산 트랜스포머 모델입니다. 비디오 데이터를 효율적으로 모델링하기 위해, 우리는 비디오를 공간 및 시간 차원 모두에서 압축하기 위해 3D 변이형 오토인코더(Variational Autoencoder, VAE)를 활용하는 것을 제안합니다. 텍스트-비디오 정렬을 향상시키기 위해, 전문가 적응형 레이어 정규화(LayerNorm)를 갖춘 전문가 트랜스포머를 제안하여 두 모드 간의 깊은 융합을 용이하게 합니다. 점진적 훈련 기술을 적용함으로써, CogVideoX는 의미 있는 움직임을 특징으로 하는 일관된 장기 비디오를 생성하는 데 능숙합니다. 또한, 다양한 데이터 전처리 전략과 비디오 캡션 메소드를 포함하는 효과적인 텍스트-비디오 데이터 처리 파이프라인을 개발했습니다. 이는 CogVideoX의 성능을 향상시키는 데 상당히 도움이 됩니다. 결과는 CogVideoX가 다중 머신 메트릭과 인간 평가 모두에서 최첨단 성능을 보여주는 것을 보여줍니다. 3D 인과 VAE와 CogVideoX의 모델 가중치는 https://github.com/THUDM/CogVideo에서 공개적으로 이용 가능합니다.
English
We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.

Summary

AI-Generated Summary

PDF406November 28, 2024