EasyAnimate: Transformerアーキテクチャに基づく高性能長尺動画生成手法
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
May 29, 2024
著者: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI
要旨
本論文では、Transformerアーキテクチャの力を活用して高性能な結果を実現するビデオ生成の先進的手法であるEasyAnimateを紹介します。我々は、2D画像合成用に設計されたDiTフレームワークを拡張し、モーションモジュールブロックを組み込むことで、3Dビデオ生成の複雑さに対応しました。このモジュールは時間的ダイナミクスを捉えるために使用され、一貫したフレームとシームレスなモーション遷移を保証します。モーションモジュールは、さまざまなDiTベースラインメソッドに適応可能で、異なるスタイルのビデオを生成することができます。また、トレーニングと推論の両フェーズで異なるフレームレートと解像度のビデオを生成することができ、画像とビデオの両方に適しています。さらに、時間軸を凝縮する新しいアプローチであるスライスVAEを導入し、長時間のビデオ生成を容易にします。現在、EasyAnimateは144フレームのビデオを生成する能力を示しています。我々は、データ前処理、VAEトレーニング、DiTモデルのトレーニング(ベースラインモデルとLoRAモデルの両方)、およびエンドツーエンドのビデオ推論を含む、DiTに基づくビデオ制作の包括的なエコシステムを提供します。コードはhttps://github.com/aigc-apps/EasyAnimateで公開されています。我々は、この手法の性能を向上させるために継続的に取り組んでいます。
English
This paper presents EasyAnimate, an advanced method for video generation that
leverages the power of transformer architecture for high-performance outcomes.
We have expanded the DiT framework originally designed for 2D image synthesis
to accommodate the complexities of 3D video generation by incorporating a
motion module block. It is used to capture temporal dynamics, thereby ensuring
the production of consistent frames and seamless motion transitions. The motion
module can be adapted to various DiT baseline methods to generate video with
different styles. It can also generate videos with different frame rates and
resolutions during both training and inference phases, suitable for both images
and videos. Moreover, we introduce slice VAE, a novel approach to condense the
temporal axis, facilitating the generation of long duration videos. Currently,
EasyAnimate exhibits the proficiency to generate videos with 144 frames. We
provide a holistic ecosystem for video production based on DiT, encompassing
aspects such as data pre-processing, VAE training, DiT models training (both
the baseline model and LoRA model), and end-to-end video inference. Code is
available at: https://github.com/aigc-apps/EasyAnimate. We are continuously
working to enhance the performance of our method.Summary
AI-Generated Summary