ChatPaper.aiChatPaper

Plan Open-Sora : Modèle de Génération de Vidéo de Grande Taille en Open Source

Open-Sora Plan: Open-Source Large Video Generation Model

November 28, 2024
Auteurs: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI

Résumé

Nous présentons le Plan Open-Sora, un projet open source qui vise à contribuer à un grand modèle de génération pour produire des vidéos haute résolution souhaitées avec de longues durées basées sur diverses entrées utilisateur. Notre projet comprend plusieurs composants pour l'ensemble du processus de génération de vidéos, comprenant un Autoencodeur Variationnel Wavelet-Flow, un Débruiteur Joint Image-Video Skiparse, et divers contrôleurs de conditions. De plus, de nombreuses stratégies d'assistance pour un entraînement et une inférence efficaces sont conçues, et un pipeline de curation de données multidimensionnelles est proposé pour obtenir des données de haute qualité souhaitées. Bénéficiant de réflexions efficaces, notre Plan Open-Sora obtient des résultats impressionnants en matière de génération de vidéos dans des évaluations qualitatives et quantitatives. Nous espérons que notre conception soignée et notre expérience pratique pourront inspirer la communauté de recherche en génération de vidéos. Tous nos codes et poids de modèles sont disponibles publiquement sur https://github.com/PKU-YuanGroup/Open-Sora-Plan.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at https://github.com/PKU-YuanGroup/Open-Sora-Plan.

Summary

AI-Generated Summary

PDF342December 3, 2024