Seaweed-7B: ビデオ生成基盤モデルのコスト効率的なトレーニング
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
April 11, 2025
著者: Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang
cs.AI
要旨
本技術レポートでは、ビデオ生成基盤モデルを効率的にトレーニングするためのコスト効果の高い戦略を提示します。約70億パラメータ(7B)の中規模研究モデル「Seaweed-7B」を、66万5千時間のH100 GPUを使用してゼロからトレーニングしました。中程度の計算リソースでトレーニングされたにもかかわらず、Seaweed-7Bは、はるかに大規模な現代のビデオ生成モデルと比較しても非常に競争力のある性能を発揮します。リソースが制約された環境では、設計選択が特に重要です。本レポートでは、中規模拡散モデルの性能を向上させるための主要な設計決定を強調します。経験的に、以下の2つの観察結果を得ました:(1) Seaweed-7Bは、大幅に多くのGPUリソースでトレーニングされた大規模モデルと同等、またはそれ以上の性能を達成し、(2) 強力な汎化能力を示す当モデルは、軽量なファインチューニングまたは継続トレーニングによって、幅広い下流アプリケーションに効果的に適応可能です。プロジェクトページはhttps://seaweed.video/をご覧ください。
English
This technical report presents a cost-efficient strategy for training a video
generation foundation model. We present a mid-sized research model with
approximately 7 billion parameters (7B) called Seaweed-7B trained from scratch
using 665,000 H100 GPU hours. Despite being trained with moderate computational
resources, Seaweed-7B demonstrates highly competitive performance compared to
contemporary video generation models of much larger size. Design choices are
especially crucial in a resource-constrained setting. This technical report
highlights the key design decisions that enhance the performance of the
medium-sized diffusion model. Empirically, we make two observations: (1)
Seaweed-7B achieves performance comparable to, or even surpasses, larger models
trained on substantially greater GPU resources, and (2) our model, which
exhibits strong generalization ability, can be effectively adapted across a
wide range of downstream applications either by lightweight fine-tuning or
continue training. See the project page at https://seaweed.video/Summary
AI-Generated Summary