Plan Open-Sora: Modelo de Generación de Videos Grandes de Código Abierto
Open-Sora Plan: Open-Source Large Video Generation Model
November 28, 2024
Autores: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI
Resumen
Presentamos Open-Sora Plan, un proyecto de código abierto que tiene como objetivo contribuir con un modelo de generación de gran tamaño para producir videos de alta resolución deseados con larga duración basados en diversos datos de usuario. Nuestro proyecto consta de múltiples componentes para todo el proceso de generación de video, incluyendo un Autoencoder Variacional de Flujo de Wavelet, un Desruido Conjunto de Imagen-Video Skiparse, y varios controladores de condición. Además, se han diseñado muchas estrategias auxiliares para un entrenamiento e inferencia eficientes, y se propone un flujo de datos multidimensional para obtener datos de alta calidad deseados. Gracias a pensamientos eficientes, nuestro Open-Sora Plan logra resultados impresionantes en la generación de videos tanto en evaluaciones cualitativas como cuantitativas. Esperamos que nuestro diseño cuidadoso y experiencia práctica puedan inspirar a la comunidad de investigación en generación de video. Todos nuestros códigos y pesos de modelos están disponibles públicamente en https://github.com/PKU-YuanGroup/Open-Sora-Plan.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a
large generation model for generating desired high-resolution videos with long
durations based on various user inputs. Our project comprises multiple
components for the entire video generation process, including a Wavelet-Flow
Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various
condition controllers. Moreover, many assistant strategies for efficient
training and inference are designed, and a multi-dimensional data curation
pipeline is proposed for obtaining desired high-quality data. Benefiting from
efficient thoughts, our Open-Sora Plan achieves impressive video generation
results in both qualitative and quantitative evaluations. We hope our careful
design and practical experience can inspire the video generation research
community. All our codes and model weights are publicly available at
https://github.com/PKU-YuanGroup/Open-Sora-Plan.Summary
AI-Generated Summary