ChatPaper.aiChatPaper

Open-Sora-Plan: Open-Source-Modell zur Generierung großer Videos

Open-Sora Plan: Open-Source Large Video Generation Model

November 28, 2024
Autoren: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI

Zusammenfassung

Wir stellen das Open-Sora Plan vor, ein Open-Source-Projekt, das darauf abzielt, ein großes Generierungsmodell zur Erzeugung von gewünschten hochauflösenden Videos mit langer Dauer auf Basis verschiedener Benutzereingaben beizutragen. Unser Projekt umfasst mehrere Komponenten für den gesamten Videogenerierungsprozess, darunter ein Wavelet-Flow Variational Autoencoder, ein gemeinsamer Bild-Video-Skiparse-Denoiser und verschiedene Bedingungssteuerungen. Darüber hinaus sind viele Hilfsstrategien für effizientes Training und Inferenz konzipiert, und ein mehrdimensionaler Datenkuratierungspipeline wird vorgeschlagen, um die gewünschten hochwertigen Daten zu erhalten. Dank effizienter Überlegungen erzielt unser Open-Sora Plan beeindruckende Ergebnisse bei der Videogenerierung sowohl in qualitativen als auch quantitativen Bewertungen. Wir hoffen, dass unser sorgfältiges Design und praktische Erfahrung die Forschergemeinschaft für Videogenerierung inspirieren können. Alle unsere Codes und Modellgewichte sind öffentlich unter https://github.com/PKU-YuanGroup/Open-Sora-Plan verfügbar.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at https://github.com/PKU-YuanGroup/Open-Sora-Plan.

Summary

AI-Generated Summary

PDF342December 3, 2024