ChatPaper.aiChatPaper

Open-Sora 2.0: Entrenamiento de un modelo de generación de videos de nivel comercial por $200k

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

March 12, 2025
Autores: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI

Resumen

Los modelos de generación de video han logrado avances notables en el último año. La calidad del video generado por IA continúa mejorando, pero a costa de un mayor tamaño de los modelos, una mayor cantidad de datos y una mayor demanda de recursos computacionales para el entrenamiento. En este informe, presentamos Open-Sora 2.0, un modelo de generación de video de nivel comercial entrenado con solo $200k. Con este modelo, demostramos que el costo de entrenar un modelo de generación de video de alto rendimiento es altamente controlable. Detallamos todas las técnicas que contribuyen a este avance en eficiencia, incluyendo la curación de datos, la arquitectura del modelo, la estrategia de entrenamiento y la optimización del sistema. Según los resultados de evaluación humana y las puntuaciones de VBench, Open-Sora 2.0 es comparable a los principales modelos de generación de video a nivel mundial, incluyendo el modelo de código abierto HunyuanVideo y el modelo de código cerrado Runway Gen-3 Alpha. Al hacer que Open-Sora 2.0 sea completamente de código abierto, nuestro objetivo es democratizar el acceso a la tecnología avanzada de generación de video, fomentando una mayor innovación y creatividad en la creación de contenido. Todos los recursos están disponibles públicamente en: https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.

Summary

AI-Generated Summary

PDF183March 14, 2025