ChatPaper.aiChatPaper

Open-Sora Plan: Open-Source Groot Video Generatiemodel

Open-Sora Plan: Open-Source Large Video Generation Model

November 28, 2024
Auteurs: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI

Samenvatting

Wij introduceren het Open-Sora Plan, een open-source project dat tot doel heeft bij te dragen aan een groot generatiemodel voor het genereren van gewenste video's met hoge resolutie en lange duur op basis van verschillende gebruikersinvoer. Ons project bestaat uit meerdere componenten voor het gehele videogeneratieproces, waaronder een Golfletstroom Variational Auto-encoder, een Gezamenlijke Afbeelding-Video Skiparse Denoiser, en diverse condition controllers. Bovendien zijn er vele hulpaanpakken voor efficiënte training en inferentie ontworpen, en wordt een multidimensionale gegevenscuratiepijplijn voorgesteld voor het verkrijgen van gewenste hoogwaardige gegevens. Dankzij efficiënte overwegingen behaalt ons Open-Sora Plan indrukwekkende resultaten op het gebied van videogeneratie in zowel kwalitatieve als kwantitatieve evaluaties. We hopen dat ons zorgvuldige ontwerp en praktische ervaring de onderzoeksgemeenschap voor videogeneratie kunnen inspireren. Al onze codes en modelgewichten zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/Open-Sora-Plan.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at https://github.com/PKU-YuanGroup/Open-Sora-Plan.
PDF352December 3, 2024