Open-Sora 2.0: Het trainen van een commercieel niveau videogeneratiemodel voor $200k
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
March 12, 2025
Auteurs: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI
Samenvatting
Videogeneratiemodellen hebben het afgelopen jaar opmerkelijke vooruitgang geboekt.
De kwaliteit van AI-video's blijft verbeteren, maar ten koste van een grotere modelomvang, een toename in de hoeveelheid data en een grotere vraag naar rekenkracht voor training. In dit rapport presenteren we Open-Sora 2.0, een commercieel niveau videogeneratiemodel dat voor slechts $200k is getraind. Met dit model tonen we aan dat de kosten voor het trainen van een toonaangevend videogeneratiemodel zeer goed beheersbaar zijn. We beschrijven alle technieken die bijdragen aan deze efficiëntiedoorbraak, waaronder datacuratie, modelarchitectuur, trainingsstrategie en systeemoptimalisatie. Volgens menselijke evaluatieresultaten en VBench-scores is Open-Sora 2.0 vergelijkbaar met wereldwijd leidende videogeneratiemodellen, waaronder het open-source HunyuanVideo en het closed-source Runway Gen-3 Alpha. Door Open-Sora 2.0 volledig open-source te maken, streven we ernaar om toegang tot geavanceerde videogeneratietechnologie te democratiseren, wat bredere innovatie en creativiteit in contentcreatie bevordert. Alle bronnen zijn openbaar beschikbaar op: https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year.
The quality of AI video continues to improve, but at the cost of larger model
size, increased data quantity, and greater demand for training compute. In this
report, we present Open-Sora 2.0, a commercial-level video generation model
trained for only $200k. With this model, we demonstrate that the cost of
training a top-performing video generation model is highly controllable. We
detail all techniques that contribute to this efficiency breakthrough,
including data curation, model architecture, training strategy, and system
optimization. According to human evaluation results and VBench scores,
Open-Sora 2.0 is comparable to global leading video generation models including
the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By
making Open-Sora 2.0 fully open-source, we aim to democratize access to
advanced video generation technology, fostering broader innovation and
creativity in content creation. All resources are publicly available at:
https://github.com/hpcaitech/Open-Sora.Summary
AI-Generated Summary