EasyAnimate: Een hoogwaardige methode voor lange videogeneratie gebaseerd op Transformer-architectuur
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
May 29, 2024
Auteurs: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI
Samenvatting
Dit artikel presenteert EasyAnimate, een geavanceerde methode voor videogeneratie die gebruikmaakt van de kracht van de transformer-architectuur voor hoogwaardige resultaten. We hebben het DiT-framework, oorspronkelijk ontworpen voor 2D-beeldsynthese, uitgebreid om de complexiteiten van 3D-videogeneratie te accommoderen door een motion module block te integreren. Deze wordt gebruikt om temporele dynamiek vast te leggen, waardoor de productie van consistente frames en naadloze bewegingsovergangen wordt gewaarborgd. De motion module kan worden aangepast aan verschillende DiT-basismethoden om video’s met verschillende stijlen te genereren. Het kan ook video’s genereren met verschillende framesnelheden en resoluties tijdens zowel de trainings- als de inferentiefases, geschikt voor zowel afbeeldingen als video’s. Bovendien introduceren we slice VAE, een nieuwe benadering om de temporele as te comprimeren, wat de generatie van lange video’s vergemakkelijkt. Momenteel toont EasyAnimate het vermogen om video’s met 144 frames te genereren. We bieden een holistisch ecosysteem voor videoproductie op basis van DiT, dat aspecten omvat zoals data-preprocessing, VAE-training, DiT-modeltraining (zowel het basismodel als het LoRA-model) en end-to-end video-inferentie. De code is beschikbaar op: https://github.com/aigc-apps/EasyAnimate. We werken continu aan het verbeteren van de prestaties van onze methode.
English
This paper presents EasyAnimate, an advanced method for video generation that
leverages the power of transformer architecture for high-performance outcomes.
We have expanded the DiT framework originally designed for 2D image synthesis
to accommodate the complexities of 3D video generation by incorporating a
motion module block. It is used to capture temporal dynamics, thereby ensuring
the production of consistent frames and seamless motion transitions. The motion
module can be adapted to various DiT baseline methods to generate video with
different styles. It can also generate videos with different frame rates and
resolutions during both training and inference phases, suitable for both images
and videos. Moreover, we introduce slice VAE, a novel approach to condense the
temporal axis, facilitating the generation of long duration videos. Currently,
EasyAnimate exhibits the proficiency to generate videos with 144 frames. We
provide a holistic ecosystem for video production based on DiT, encompassing
aspects such as data pre-processing, VAE training, DiT models training (both
the baseline model and LoRA model), and end-to-end video inference. Code is
available at: https://github.com/aigc-apps/EasyAnimate. We are continuously
working to enhance the performance of our method.