ChatPaper.aiChatPaper

Open-Sora 2.0: Training eines kommerziell einsetzbaren Videogenerierungsmodells für 200.000 US-Dollar

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

March 12, 2025
Autoren: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI

Zusammenfassung

Videogenerationsmodelle haben im vergangenen Jahr bemerkenswerte Fortschritte erzielt. Die Qualität von KI-generierten Videos verbessert sich kontinuierlich, allerdings auf Kosten einer größeren Modellgröße, erhöhter Datenmenge und eines höheren Bedarfs an Trainingsrechenleistung. In diesem Bericht stellen wir Open-Sora 2.0 vor, ein kommerziell einsetzbares Videogenerationsmodell, das für nur 200.000 US-Dollar trainiert wurde. Mit diesem Modell zeigen wir, dass die Kosten für das Training eines erstklassigen Videogenerationsmodells stark kontrollierbar sind. Wir erläutern alle Techniken, die zu diesem Effizienzdurchbruch beigetragen haben, darunter Datenkuratierung, Modellarchitektur, Trainingsstrategie und Systemoptimierung. Laut menschlicher Bewertungsergebnisse und VBench-Scores ist Open-Sora 2.0 vergleichbar mit weltweit führenden Videogenerationsmodellen, einschließlich des Open-Source-Modells HunyuanVideo und des proprietären Modells Runway Gen-3 Alpha. Indem wir Open-Sora 2.0 vollständig Open-Source machen, möchten wir den Zugang zu fortschrittlicher Videogenerationstechnologie demokratisieren und so breitere Innovation und Kreativität in der Inhaltserstellung fördern. Alle Ressourcen sind öffentlich verfügbar unter: https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.

Summary

AI-Generated Summary

PDF183March 14, 2025