ChatPaper.aiChatPaper

Open-Sora 2.0: Addestramento di un Modello Commerciale per la Generazione di Video con un Budget di $200k

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

March 12, 2025
Autori: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI

Abstract

I modelli di generazione video hanno compiuto progressi straordinari nell'ultimo anno. La qualità dei video generati dall'IA continua a migliorare, ma al costo di dimensioni maggiori del modello, una maggiore quantità di dati e una maggiore richiesta di risorse computazionali per l'addestramento. In questo rapporto, presentiamo Open-Sora 2.0, un modello di generazione video di livello commerciale addestrato con soli 200.000 dollari. Con questo modello, dimostriamo che il costo di addestramento di un modello di generazione video di alto livello è altamente controllabile. Descriviamo tutte le tecniche che hanno contribuito a questa svolta in termini di efficienza, includendo la cura dei dati, l'architettura del modello, la strategia di addestramento e l'ottimizzazione del sistema. Secondo i risultati delle valutazioni umane e i punteggi VBench, Open-Sora 2.0 è paragonabile ai principali modelli di generazione video a livello globale, tra cui il modello open-source HunyuanVideo e il modello closed-source Runway Gen-3 Alpha. Rendendo Open-Sora 2.0 completamente open-source, miriamo a democratizzare l'accesso alla tecnologia avanzata di generazione video, promuovendo un'innovazione e una creatività più ampia nella creazione di contenuti. Tutte le risorse sono disponibili pubblicamente all'indirizzo: https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.
PDF183March 14, 2025