ChatPaper.aiChatPaper

Open-Sora 2.0: Обучение коммерческого уровня модели генерации видео за $200 тыс.

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

March 12, 2025
Авторы: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
cs.AI

Аннотация

Модели генерации видео достигли значительного прогресса за последний год. Качество видео, создаваемого искусственным интеллектом, продолжает улучшаться, однако это происходит за счет увеличения размера моделей, объема данных и требований к вычислительным ресурсам для обучения. В данном отчете мы представляем Open-Sora 2.0 — коммерчески значимую модель генерации видео, обученную всего за $200 тыс. С помощью этой модели мы демонстрируем, что стоимость обучения высокопроизводительной модели генерации видео может быть существенно контролируемой. Мы подробно описываем все методы, которые способствовали этому прорыву в эффективности, включая подготовку данных, архитектуру модели, стратегию обучения и оптимизацию системы. Согласно результатам оценки людьми и показателям VBench, Open-Sora 2.0 сопоставима с ведущими мировыми моделями генерации видео, включая открытую HunyuanVideo и закрытую Runway Gen-3 Alpha. Сделав Open-Sora 2.0 полностью открытой, мы стремимся демократизировать доступ к передовым технологиям генерации видео, способствуя более широким инновациям и творчеству в создании контента. Все ресурсы доступны публично по адресу: https://github.com/hpcaitech/Open-Sora.
English
Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.

Summary

AI-Generated Summary

PDF183March 14, 2025