ChatPaper.aiChatPaper

EasyAnimate: 트랜스포머 아키텍처 기반의 고성능 장편 비디오 생성 방법

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

May 29, 2024
저자: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI

초록

본 논문은 고성능 결과를 위해 트랜스포머 아키텍처의 힘을 활용한 비디오 생성의 고급 방법인 EasyAnimate를 소개합니다. 우리는 원래 2D 이미지 합성을 위해 설계된 DiT 프레임워크를 확장하여 모션 모듈 블록을 통합함으로써 3D 비디오 생성의 복잡성을 수용했습니다. 이 모듈은 시간적 동역학을 포착하여 일관된 프레임과 원활한 모션 전환을 보장하는 데 사용됩니다. 모션 모듈은 다양한 DiT 베이스라인 방법에 적용되어 다양한 스타일의 비디오를 생성할 수 있습니다. 또한, 학습 및 추론 단계에서 다양한 프레임 속도와 해상도의 비디오를 생성할 수 있으며, 이미지와 비디오 모두에 적합합니다. 더불어, 우리는 시간 축을 압축하여 장시간 비디오 생성을 용이하게 하는 새로운 접근법인 슬라이스 VAE를 소개합니다. 현재 EasyAnimate는 144프레임의 비디오를 생성할 수 있는 능력을 보여줍니다. 우리는 데이터 전처리, VAE 학습, DiT 모델 학습(베이스라인 모델 및 LoRA 모델), 그리고 엔드투엔드 비디오 추론을 포함한 DiT 기반의 비디오 생성을 위한 종합적인 생태계를 제공합니다. 코드는 https://github.com/aigc-apps/EasyAnimate에서 확인할 수 있습니다. 우리는 지속적으로 이 방법의 성능을 향상시키기 위해 노력하고 있습니다.
English
This paper presents EasyAnimate, an advanced method for video generation that leverages the power of transformer architecture for high-performance outcomes. We have expanded the DiT framework originally designed for 2D image synthesis to accommodate the complexities of 3D video generation by incorporating a motion module block. It is used to capture temporal dynamics, thereby ensuring the production of consistent frames and seamless motion transitions. The motion module can be adapted to various DiT baseline methods to generate video with different styles. It can also generate videos with different frame rates and resolutions during both training and inference phases, suitable for both images and videos. Moreover, we introduce slice VAE, a novel approach to condense the temporal axis, facilitating the generation of long duration videos. Currently, EasyAnimate exhibits the proficiency to generate videos with 144 frames. We provide a holistic ecosystem for video production based on DiT, encompassing aspects such as data pre-processing, VAE training, DiT models training (both the baseline model and LoRA model), and end-to-end video inference. Code is available at: https://github.com/aigc-apps/EasyAnimate. We are continuously working to enhance the performance of our method.
PDF121December 12, 2024