ChatPaper.aiChatPaper

Seaweed-7B: Kosteneffizientes Training eines Foundation-Modells für die Videogenerierung

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

April 11, 2025
Autoren: Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang
cs.AI

Zusammenfassung

Dieser technische Bericht stellt eine kosteneffiziente Strategie für das Training eines Video-Generierungs-Foundation-Modells vor. Wir präsentieren ein mittelgroßes Forschungsmodell mit etwa 7 Milliarden Parametern (7B), genannt Seaweed-7B, das von Grund auf mit 665.000 H100-GPU-Stunden trainiert wurde. Obwohl es mit moderaten Rechenressourcen trainiert wurde, zeigt Seaweed-7B eine äußerst wettbewerbsfähige Leistung im Vergleich zu zeitgenössischen Video-Generierungsmodellen mit deutlich größerem Umfang. Designentscheidungen sind besonders entscheidend in einem ressourcenbeschränkten Umfeld. Dieser technische Bericht hebt die wesentlichen Designentscheidungen hervor, die die Leistung des mittelgroßen Diffusionsmodells verbessern. Empirisch machen wir zwei Beobachtungen: (1) Seaweed-7B erreicht eine Leistung, die vergleichbar ist oder sogar größere Modelle übertrifft, die mit erheblich mehr GPU-Ressourcen trainiert wurden, und (2) unser Modell, das eine starke Generalisierungsfähigkeit aufweist, kann effektiv über eine breite Palette von Downstream-Anwendungen angepasst werden, entweder durch leichtgewichtiges Fine-Tuning oder durch weiteres Training. Besuchen Sie die Projektseite unter https://seaweed.video/.
English
This technical report presents a cost-efficient strategy for training a video generation foundation model. We present a mid-sized research model with approximately 7 billion parameters (7B) called Seaweed-7B trained from scratch using 665,000 H100 GPU hours. Despite being trained with moderate computational resources, Seaweed-7B demonstrates highly competitive performance compared to contemporary video generation models of much larger size. Design choices are especially crucial in a resource-constrained setting. This technical report highlights the key design decisions that enhance the performance of the medium-sized diffusion model. Empirically, we make two observations: (1) Seaweed-7B achieves performance comparable to, or even surpasses, larger models trained on substantially greater GPU resources, and (2) our model, which exhibits strong generalization ability, can be effectively adapted across a wide range of downstream applications either by lightweight fine-tuning or continue training. See the project page at https://seaweed.video/

Summary

AI-Generated Summary

PDF12211April 14, 2025