EasyAnimate: Un Método de Generación de Videos Largos de Alto Rendimiento Basado en la Arquitectura Transformer
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
May 29, 2024
Autores: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI
Resumen
Este artículo presenta EasyAnimate, un método avanzado para la generación de videos que aprovecha la potencia de la arquitectura transformer para obtener resultados de alto rendimiento. Hemos ampliado el marco DiT, originalmente diseñado para la síntesis de imágenes 2D, para adaptarlo a las complejidades de la generación de videos 3D mediante la incorporación de un bloque de módulo de movimiento. Este se utiliza para capturar la dinámica temporal, asegurando así la producción de fotogramas consistentes y transiciones de movimiento fluidas. El módulo de movimiento puede adaptarse a varios métodos base de DiT para generar videos con diferentes estilos. También puede generar videos con diferentes tasas de fotogramas y resoluciones durante las fases de entrenamiento e inferencia, siendo adecuado tanto para imágenes como para videos. Además, introducimos slice VAE, un enfoque novedoso para condensar el eje temporal, facilitando la generación de videos de larga duración. Actualmente, EasyAnimate demuestra la capacidad de generar videos con 144 fotogramas. Ofrecemos un ecosistema integral para la producción de videos basado en DiT, que abarca aspectos como el preprocesamiento de datos, el entrenamiento de VAE, el entrenamiento de modelos DiT (tanto el modelo base como el modelo LoRA) y la inferencia de video de extremo a extremo. El código está disponible en: https://github.com/aigc-apps/EasyAnimate. Continuamos trabajando para mejorar el rendimiento de nuestro método.
English
This paper presents EasyAnimate, an advanced method for video generation that
leverages the power of transformer architecture for high-performance outcomes.
We have expanded the DiT framework originally designed for 2D image synthesis
to accommodate the complexities of 3D video generation by incorporating a
motion module block. It is used to capture temporal dynamics, thereby ensuring
the production of consistent frames and seamless motion transitions. The motion
module can be adapted to various DiT baseline methods to generate video with
different styles. It can also generate videos with different frame rates and
resolutions during both training and inference phases, suitable for both images
and videos. Moreover, we introduce slice VAE, a novel approach to condense the
temporal axis, facilitating the generation of long duration videos. Currently,
EasyAnimate exhibits the proficiency to generate videos with 144 frames. We
provide a holistic ecosystem for video production based on DiT, encompassing
aspects such as data pre-processing, VAE training, DiT models training (both
the baseline model and LoRA model), and end-to-end video inference. Code is
available at: https://github.com/aigc-apps/EasyAnimate. We are continuously
working to enhance the performance of our method.Summary
AI-Generated Summary