ChatPaper.aiChatPaper

Open-Sora 2.0 : Entraînement d'un modèle de génération vidéo de niveau commercial pour 200 000 $

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

March 12, 2025
Auteurs: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI

Résumé

Les modèles de génération vidéo ont réalisé des progrès remarquables au cours de la dernière année. La qualité des vidéos générées par IA continue de s'améliorer, mais au prix d'une augmentation de la taille des modèles, de la quantité de données nécessaires et des ressources de calcul pour l'entraînement. Dans ce rapport, nous présentons Open-Sora 2.0, un modèle de génération vidéo de niveau commercial entraîné pour seulement 200 000 dollars. Avec ce modèle, nous démontrons que le coût d'entraînement d'un modèle de génération vidéo de premier plan est hautement contrôlable. Nous détaillons toutes les techniques qui ont contribué à cette avancée en termes d'efficacité, incluant la curation des données, l'architecture du modèle, la stratégie d'entraînement et l'optimisation du système. Selon les résultats d'évaluation humaine et les scores VBench, Open-Sora 2.0 est comparable aux meilleurs modèles de génération vidéo mondiaux, incluant le modèle open-source HunyuanVideo et le modèle propriétaire Runway Gen-3 Alpha. En rendant Open-Sora 2.0 entièrement open-source, nous visons à démocratiser l'accès à la technologie avancée de génération vidéo, favorisant ainsi une innovation et une créativité plus larges dans la création de contenu. Toutes les ressources sont disponibles publiquement à l'adresse suivante : https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.

Summary

AI-Generated Summary

PDF183March 14, 2025