EasyAnimate: Un Metodo ad Alte Prestazioni per la Generazione di Video Lunghi basato sull'Architettura Transformer
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
May 29, 2024
Autori: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI
Abstract
Questo articolo presenta EasyAnimate, un metodo avanzato per la generazione di video che sfrutta la potenza dell'architettura transformer per ottenere risultati ad alte prestazioni. Abbiamo ampliato il framework DiT, originariamente progettato per la sintesi di immagini 2D, per adattarlo alle complessità della generazione di video 3D, incorporando un blocco modulo di movimento. Questo modulo è utilizzato per catturare le dinamiche temporali, garantendo così la produzione di frame coerenti e transizioni di movimento fluide. Il modulo di movimento può essere adattato a vari metodi di base DiT per generare video con stili diversi. Può inoltre generare video con diversi frame rate e risoluzioni sia durante la fase di addestramento che di inferenza, adatti sia per immagini che per video. Inoltre, introduciamo slice VAE, un approccio innovativo per condensare l'asse temporale, facilitando la generazione di video di lunga durata. Attualmente, EasyAnimate dimostra la capacità di generare video con 144 frame. Forniamo un ecosistema completo per la produzione di video basato su DiT, che comprende aspetti come la pre-elaborazione dei dati, l'addestramento di VAE, l'addestramento dei modelli DiT (sia il modello di base che il modello LoRA) e l'inferenza end-to-end dei video. Il codice è disponibile all'indirizzo: https://github.com/aigc-apps/EasyAnimate. Stiamo continuamente lavorando per migliorare le prestazioni del nostro metodo.
English
This paper presents EasyAnimate, an advanced method for video generation that
leverages the power of transformer architecture for high-performance outcomes.
We have expanded the DiT framework originally designed for 2D image synthesis
to accommodate the complexities of 3D video generation by incorporating a
motion module block. It is used to capture temporal dynamics, thereby ensuring
the production of consistent frames and seamless motion transitions. The motion
module can be adapted to various DiT baseline methods to generate video with
different styles. It can also generate videos with different frame rates and
resolutions during both training and inference phases, suitable for both images
and videos. Moreover, we introduce slice VAE, a novel approach to condense the
temporal axis, facilitating the generation of long duration videos. Currently,
EasyAnimate exhibits the proficiency to generate videos with 144 frames. We
provide a holistic ecosystem for video production based on DiT, encompassing
aspects such as data pre-processing, VAE training, DiT models training (both
the baseline model and LoRA model), and end-to-end video inference. Code is
available at: https://github.com/aigc-apps/EasyAnimate. We are continuously
working to enhance the performance of our method.