EasyAnimate: Eine leistungsstarke Methode zur Generierung langer Videos basierend auf der Transformer-Architektur
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
May 29, 2024
Autoren: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI
Zusammenfassung
Dieses Paper präsentiert EasyAnimate, eine fortschrittliche Methode zur Videogenerierung, die die Leistungsfähigkeit der Transformer-Architektur für hochwertige Ergebnisse nutzt. Wir haben das DiT-Framework, das ursprünglich für die Synthese von 2D-Bildern entwickelt wurde, erweitert, um die Komplexitäten der 3D-Videogenerierung durch die Integration eines Bewegungsmodul-Blocks zu berücksichtigen. Dieser wird verwendet, um zeitliche Dynamiken zu erfassen und somit die Erzeugung konsistenter Frames und nahtloser Bewegungsübergänge sicherzustellen. Das Bewegungsmodul kann an verschiedene DiT-Basisverfahren angepasst werden, um Videos mit unterschiedlichen Stilen zu generieren. Es kann auch Videos mit verschiedenen Bildraten und Auflösungen sowohl während des Trainings als auch der Inferenzphasen generieren, geeignet für Bilder und Videos. Darüber hinaus stellen wir Slice VAE vor, einen neuartigen Ansatz zur Verdichtung der Zeitachse, der die Generierung von langen Videos ermöglicht. Derzeit zeigt EasyAnimate die Fähigkeit, Videos mit 144 Frames zu generieren. Wir bieten ein ganzheitliches Ökosystem für die Videoproduktion auf Basis von DiT, das Aspekte wie die Datenvorbereitung, das VAE-Training, das DiT-Modelltraining (sowohl des Basis- als auch des LoRA-Modells) und die End-to-End-Videoinferenz umfasst. Der Code ist verfügbar unter: https://github.com/aigc-apps/EasyAnimate. Wir arbeiten kontinuierlich daran, die Leistungsfähigkeit unserer Methode zu verbessern.
English
This paper presents EasyAnimate, an advanced method for video generation that
leverages the power of transformer architecture for high-performance outcomes.
We have expanded the DiT framework originally designed for 2D image synthesis
to accommodate the complexities of 3D video generation by incorporating a
motion module block. It is used to capture temporal dynamics, thereby ensuring
the production of consistent frames and seamless motion transitions. The motion
module can be adapted to various DiT baseline methods to generate video with
different styles. It can also generate videos with different frame rates and
resolutions during both training and inference phases, suitable for both images
and videos. Moreover, we introduce slice VAE, a novel approach to condense the
temporal axis, facilitating the generation of long duration videos. Currently,
EasyAnimate exhibits the proficiency to generate videos with 144 frames. We
provide a holistic ecosystem for video production based on DiT, encompassing
aspects such as data pre-processing, VAE training, DiT models training (both
the baseline model and LoRA model), and end-to-end video inference. Code is
available at: https://github.com/aigc-apps/EasyAnimate. We are continuously
working to enhance the performance of our method.Summary
AI-Generated Summary