Open-Sora 2.0: Treinando um Modelo de Geração de Vídeo de Nível Comercial por $200 mil
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
March 12, 2025
Autores: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI
Resumo
Os modelos de geração de vídeo alcançaram progressos notáveis no último ano.
A qualidade dos vídeos gerados por IA continua a melhorar, mas ao custo de um
tamanho maior do modelo, maior quantidade de dados e maior demanda por
capacidade de treinamento. Neste relatório, apresentamos o Open-Sora 2.0, um
modelo de geração de vídeo de nível comercial treinado por apenas US$ 200 mil.
Com este modelo, demonstramos que o custo de treinamento de um modelo de
geração de vídeo de alto desempenho é altamente controlável. Detalhamos todas
as técnicas que contribuíram para esse avanço em eficiência, incluindo curadoria
de dados, arquitetura do modelo, estratégia de treinamento e otimização do
sistema. De acordo com os resultados de avaliação humana e pontuações do
VBench, o Open-Sora 2.0 é comparável aos principais modelos de geração de vídeo
globais, incluindo o HunyuanVideo de código aberto e o Runway Gen-3 Alpha de
código fechado. Ao disponibilizar o Open-Sora 2.0 como código aberto, nosso
objetivo é democratizar o acesso à tecnologia avançada de geração de vídeo,
promovendo uma inovação e criatividade mais amplas na criação de conteúdo. Todos
os recursos estão disponíveis publicamente em:
https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year.
The quality of AI video continues to improve, but at the cost of larger model
size, increased data quantity, and greater demand for training compute. In this
report, we present Open-Sora 2.0, a commercial-level video generation model
trained for only $200k. With this model, we demonstrate that the cost of
training a top-performing video generation model is highly controllable. We
detail all techniques that contribute to this efficiency breakthrough,
including data curation, model architecture, training strategy, and system
optimization. According to human evaluation results and VBench scores,
Open-Sora 2.0 is comparable to global leading video generation models including
the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By
making Open-Sora 2.0 fully open-source, we aim to democratize access to
advanced video generation technology, fostering broader innovation and
creativity in content creation. All resources are publicly available at:
https://github.com/hpcaitech/Open-Sora.Summary
AI-Generated Summary