ChatPaper.aiChatPaper

EasyAnimate: Метод генерации длинных видео высокой производительности на основе архитектуры трансформера

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

May 29, 2024
Авторы: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang
cs.AI

Аннотация

В данной статье представлен EasyAnimate, передовой метод генерации видео, который использует мощь архитектуры трансформера для достижения высокопроизводительных результатов. Мы расширили фреймворк DiT, изначально разработанный для синтеза 2D изображений, чтобы адаптировать его к сложностям генерации 3D видео путем включения блока модуля движения. Он используется для захвата временной динамики, обеспечивая производство последовательных кадров и плавных переходов движения. Модуль движения может быть адаптирован к различным базовым методам DiT для генерации видео различных стилей. Он также может создавать видео с разными частотами кадров и разрешениями как во время обучения, так и на этапе вывода, подходящие как для изображений, так и для видео. Более того, мы представляем slice VAE, новый подход для сжатия временной оси, облегчающий генерацию видео большой продолжительности. В настоящее время EasyAnimate демонстрирует профессионализм в генерации видео с 144 кадрами. Мы предоставляем целостную экосистему для производства видео на основе DiT, охватывающую аспекты, такие как предварительная обработка данных, обучение VAE, обучение моделей DiT (как базовой модели, так и модели LoRA) и вывод видео end-to-end. Код доступен по ссылке: https://github.com/aigc-apps/EasyAnimate. Мы продолжаем работать над улучшением производительности нашего метода.
English
This paper presents EasyAnimate, an advanced method for video generation that leverages the power of transformer architecture for high-performance outcomes. We have expanded the DiT framework originally designed for 2D image synthesis to accommodate the complexities of 3D video generation by incorporating a motion module block. It is used to capture temporal dynamics, thereby ensuring the production of consistent frames and seamless motion transitions. The motion module can be adapted to various DiT baseline methods to generate video with different styles. It can also generate videos with different frame rates and resolutions during both training and inference phases, suitable for both images and videos. Moreover, we introduce slice VAE, a novel approach to condense the temporal axis, facilitating the generation of long duration videos. Currently, EasyAnimate exhibits the proficiency to generate videos with 144 frames. We provide a holistic ecosystem for video production based on DiT, encompassing aspects such as data pre-processing, VAE training, DiT models training (both the baseline model and LoRA model), and end-to-end video inference. Code is available at: https://github.com/aigc-apps/EasyAnimate. We are continuously working to enhance the performance of our method.

Summary

AI-Generated Summary

PDF121December 12, 2024