Plano Open-Sora: Modelo de Geração de Vídeo em Grande Escala de Código Aberto
Open-Sora Plan: Open-Source Large Video Generation Model
November 28, 2024
Autores: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI
Resumo
Apresentamos o Plano Open-Sora, um projeto de código aberto que tem como objetivo contribuir com um modelo de geração de grande porte para produzir vídeos de alta resolução desejados com longas durações com base em várias entradas de usuário. Nosso projeto é composto por múltiplos componentes para todo o processo de geração de vídeo, incluindo um Codificador Variacional de Fluxo de Wavelet, um Desnecessário Conjunto de Imagem-Vídeo e diversos controladores de condição. Além disso, muitas estratégias auxiliares para treinamento e inferência eficientes são projetadas, e um pipeline de curadoria de dados multidimensional é proposto para obter dados de alta qualidade desejados. Beneficiando-se de ideias eficientes, nosso Plano Open-Sora alcança resultados impressionantes na geração de vídeo em avaliações qualitativas e quantitativas. Esperamos que nosso design cuidadoso e experiência prática possam inspirar a comunidade de pesquisa em geração de vídeo. Todos os nossos códigos e pesos de modelo estão publicamente disponíveis em https://github.com/PKU-YuanGroup/Open-Sora-Plan.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a
large generation model for generating desired high-resolution videos with long
durations based on various user inputs. Our project comprises multiple
components for the entire video generation process, including a Wavelet-Flow
Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various
condition controllers. Moreover, many assistant strategies for efficient
training and inference are designed, and a multi-dimensional data curation
pipeline is proposed for obtaining desired high-quality data. Benefiting from
efficient thoughts, our Open-Sora Plan achieves impressive video generation
results in both qualitative and quantitative evaluations. We hope our careful
design and practical experience can inspire the video generation research
community. All our codes and model weights are publicly available at
https://github.com/PKU-YuanGroup/Open-Sora-Plan.Summary
AI-Generated Summary