Open-Sora 2.0: Обучение коммерческого уровня модели генерации видео за $200 тыс.
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
March 12, 2025
Авторы: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI
Аннотация
Модели генерации видео достигли значительного прогресса за последний год. Качество видео, создаваемого искусственным интеллектом, продолжает улучшаться, однако это происходит за счет увеличения размера моделей, объема данных и требований к вычислительным ресурсам для обучения. В данном отчете мы представляем Open-Sora 2.0 — коммерчески значимую модель генерации видео, обученную всего за $200 тыс. С помощью этой модели мы демонстрируем, что стоимость обучения высокопроизводительной модели генерации видео может быть существенно контролируемой. Мы подробно описываем все методы, которые способствовали этому прорыву в эффективности, включая подготовку данных, архитектуру модели, стратегию обучения и оптимизацию системы. Согласно результатам оценки людьми и показателям VBench, Open-Sora 2.0 сопоставима с ведущими мировыми моделями генерации видео, включая открытую HunyuanVideo и закрытую Runway Gen-3 Alpha. Сделав Open-Sora 2.0 полностью открытой, мы стремимся демократизировать доступ к передовым технологиям генерации видео, способствуя более широким инновациям и творчеству в создании контента. Все ресурсы доступны публично по адресу: https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year.
The quality of AI video continues to improve, but at the cost of larger model
size, increased data quantity, and greater demand for training compute. In this
report, we present Open-Sora 2.0, a commercial-level video generation model
trained for only $200k. With this model, we demonstrate that the cost of
training a top-performing video generation model is highly controllable. We
detail all techniques that contribute to this efficiency breakthrough,
including data curation, model architecture, training strategy, and system
optimization. According to human evaluation results and VBench scores,
Open-Sora 2.0 is comparable to global leading video generation models including
the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By
making Open-Sora 2.0 fully open-source, we aim to democratize access to
advanced video generation technology, fostering broader innovation and
creativity in content creation. All resources are publicly available at:
https://github.com/hpcaitech/Open-Sora.Summary
AI-Generated Summary