EasyAnimate: Um Método de Geração de Vídeos Longos de Alto Desempenho Baseado na Arquitetura Transformer
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
May 29, 2024
Autores: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI
Resumo
Este artigo apresenta o EasyAnimate, um método avançado para geração de vídeos que aproveita o poder da arquitetura transformer para obter resultados de alto desempenho. Expandimos o framework DiT, originalmente projetado para síntese de imagens 2D, para acomodar as complexidades da geração de vídeos 3D, incorporando um bloco de módulo de movimento. Esse módulo é utilizado para capturar a dinâmica temporal, garantindo assim a produção de quadros consistentes e transições de movimento suaves. O módulo de movimento pode ser adaptado a diversos métodos baselines do DiT para gerar vídeos com diferentes estilos. Ele também pode gerar vídeos com diferentes taxas de quadros e resoluções durante as fases de treinamento e inferência, sendo adequado tanto para imagens quanto para vídeos. Além disso, introduzimos o slice VAE, uma abordagem inovadora para condensar o eixo temporal, facilitando a geração de vídeos de longa duração. Atualmente, o EasyAnimate demonstra a capacidade de gerar vídeos com 144 quadros. Oferecemos um ecossistema holístico para produção de vídeos baseado no DiT, abrangendo aspectos como pré-processamento de dados, treinamento de VAE, treinamento de modelos DiT (tanto o modelo baseline quanto o modelo LoRA) e inferência de vídeo de ponta a ponta. O código está disponível em: https://github.com/aigc-apps/EasyAnimate. Estamos continuamente trabalhando para aprimorar o desempenho do nosso método.
English
This paper presents EasyAnimate, an advanced method for video generation that
leverages the power of transformer architecture for high-performance outcomes.
We have expanded the DiT framework originally designed for 2D image synthesis
to accommodate the complexities of 3D video generation by incorporating a
motion module block. It is used to capture temporal dynamics, thereby ensuring
the production of consistent frames and seamless motion transitions. The motion
module can be adapted to various DiT baseline methods to generate video with
different styles. It can also generate videos with different frame rates and
resolutions during both training and inference phases, suitable for both images
and videos. Moreover, we introduce slice VAE, a novel approach to condense the
temporal axis, facilitating the generation of long duration videos. Currently,
EasyAnimate exhibits the proficiency to generate videos with 144 frames. We
provide a holistic ecosystem for video production based on DiT, encompassing
aspects such as data pre-processing, VAE training, DiT models training (both
the baseline model and LoRA model), and end-to-end video inference. Code is
available at: https://github.com/aigc-apps/EasyAnimate. We are continuously
working to enhance the performance of our method.