План Open-Sora: Модель генерации больших видео с открытым исходным кодом

Open-Sora Plan: Open-Source Large Video Generation Model

November 28, 2024
Авторы: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI

Аннотация

Мы представляем Open-Sora Plan, проект с открытым исходным кодом, который направлен на создание крупной модели генерации для генерации желаемых видеороликов высокого разрешения с длительным временем работы на основе различных пользовательских входных данных. Наш проект включает несколько компонентов для всего процесса генерации видео, включая вариационный авокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse и различные контроллеры условий. Более того, разработано множество вспомогательных стратегий для эффективного обучения и вывода, а также предложена многомерная конвейерная обработка данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт могут вдохновить исследовательское сообщество по генерации видео. Все наши коды и модельные веса доступны публично на https://github.com/PKU-YuanGroup/Open-Sora-Plan.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at https://github.com/PKU-YuanGroup/Open-Sora-Plan.
PDF352December 3, 2024