Seaweed-7B: Kosteneffectieve training van een fundamenteel model voor videogeneratie
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
April 11, 2025
Auteurs: Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang
cs.AI
Samenvatting
Dit technisch rapport presenteert een kostenefficiënte strategie voor het trainen van een foundation model voor videogeneratie. We introduceren een middelgroot onderzoeksmodel met ongeveer 7 miljard parameters (7B), genaamd Seaweed-7B, dat vanaf nul is getraind met behulp van 665.000 H100 GPU-uren. Ondanks het feit dat het is getraind met matige rekenbronnen, toont Seaweed-7B een zeer competitieve prestaties in vergelijking met hedendaagse videogeneratiemodellen van aanzienlijk grotere omvang. Ontwerpkeuzes zijn vooral cruciaal in een omgeving met beperkte middelen. Dit technisch rapport belicht de belangrijkste ontwerpbeslissingen die de prestaties van het middelgrote diffusiemodel verbeteren. Empirisch maken we twee observaties: (1) Seaweed-7B bereikt prestaties die vergelijkbaar zijn met, of zelfs beter dan, grotere modellen die getraind zijn met aanzienlijk meer GPU-bronnen, en (2) ons model, dat een sterke generalisatiecapaciteit vertoont, kan effectief worden aangepast voor een breed scala aan downstream toepassingen, hetzij door lichtgewicht fine-tuning of door voortgezette training. Zie de projectpagina op https://seaweed.video/
English
This technical report presents a cost-efficient strategy for training a video
generation foundation model. We present a mid-sized research model with
approximately 7 billion parameters (7B) called Seaweed-7B trained from scratch
using 665,000 H100 GPU hours. Despite being trained with moderate computational
resources, Seaweed-7B demonstrates highly competitive performance compared to
contemporary video generation models of much larger size. Design choices are
especially crucial in a resource-constrained setting. This technical report
highlights the key design decisions that enhance the performance of the
medium-sized diffusion model. Empirically, we make two observations: (1)
Seaweed-7B achieves performance comparable to, or even surpasses, larger models
trained on substantially greater GPU resources, and (2) our model, which
exhibits strong generalization ability, can be effectively adapted across a
wide range of downstream applications either by lightweight fine-tuning or
continue training. See the project page at https://seaweed.video/Summary
AI-Generated Summary