ChatPaper.aiChatPaper

EasyAnimate : Une méthode de génération de vidéos longues à haute performance basée sur l'architecture Transformer

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

May 29, 2024
Auteurs: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI

Résumé

Cet article présente EasyAnimate, une méthode avancée pour la génération de vidéos qui exploite la puissance de l'architecture de transformateurs pour des résultats performants. Nous avons étendu le cadre DiT, initialement conçu pour la synthèse d'images 2D, afin de prendre en compte les complexités de la génération de vidéos 3D en intégrant un module de mouvement. Ce module est utilisé pour capturer la dynamique temporelle, garantissant ainsi la production de trames cohérentes et de transitions fluides. Le module de mouvement peut être adapté à diverses méthodes de base DiT pour générer des vidéos avec différents styles. Il permet également de générer des vidéos avec différentes fréquences d'images et résolutions, aussi bien pendant la phase d'entraînement que d'inférence, et convient à la fois pour les images et les vidéos. Par ailleurs, nous introduisons le slice VAE, une approche novatrice pour condenser l'axe temporel, facilitant ainsi la génération de vidéos de longue durée. Actuellement, EasyAnimate démontre sa capacité à générer des vidéos de 144 trames. Nous proposons un écosystème complet pour la production de vidéos basé sur DiT, englobant des aspects tels que le prétraitement des données, l'entraînement du VAE, l'entraînement des modèles DiT (à la fois le modèle de base et le modèle LoRA), ainsi que l'inférence vidéo de bout en bout. Le code est disponible à l'adresse suivante : https://github.com/aigc-apps/EasyAnimate. Nous travaillons continuellement à améliorer les performances de notre méthode.
English
This paper presents EasyAnimate, an advanced method for video generation that leverages the power of transformer architecture for high-performance outcomes. We have expanded the DiT framework originally designed for 2D image synthesis to accommodate the complexities of 3D video generation by incorporating a motion module block. It is used to capture temporal dynamics, thereby ensuring the production of consistent frames and seamless motion transitions. The motion module can be adapted to various DiT baseline methods to generate video with different styles. It can also generate videos with different frame rates and resolutions during both training and inference phases, suitable for both images and videos. Moreover, we introduce slice VAE, a novel approach to condense the temporal axis, facilitating the generation of long duration videos. Currently, EasyAnimate exhibits the proficiency to generate videos with 144 frames. We provide a holistic ecosystem for video production based on DiT, encompassing aspects such as data pre-processing, VAE training, DiT models training (both the baseline model and LoRA model), and end-to-end video inference. Code is available at: https://github.com/aigc-apps/EasyAnimate. We are continuously working to enhance the performance of our method.

Summary

AI-Generated Summary

PDF121December 12, 2024