Seaweed-7B: Kosteneffizientes Training eines Foundation-Modells für die VideogenerierungSeaweed-7B: Cost-Effective Training of Video Generation Foundation Model
Dieser technische Bericht stellt eine kosteneffiziente Strategie für das Training eines Video-Generierungs-Foundation-Modells vor. Wir präsentieren ein mittelgroßes Forschungsmodell mit etwa 7 Milliarden Parametern (7B), genannt Seaweed-7B, das von Grund auf mit 665.000 H100-GPU-Stunden trainiert wurde. Obwohl es mit moderaten Rechenressourcen trainiert wurde, zeigt Seaweed-7B eine äußerst wettbewerbsfähige Leistung im Vergleich zu zeitgenössischen Video-Generierungsmodellen mit deutlich größerem Umfang. Designentscheidungen sind besonders entscheidend in einem ressourcenbeschränkten Umfeld. Dieser technische Bericht hebt die wesentlichen Designentscheidungen hervor, die die Leistung des mittelgroßen Diffusionsmodells verbessern. Empirisch machen wir zwei Beobachtungen: (1) Seaweed-7B erreicht eine Leistung, die vergleichbar ist oder sogar größere Modelle übertrifft, die mit erheblich mehr GPU-Ressourcen trainiert wurden, und (2) unser Modell, das eine starke Generalisierungsfähigkeit aufweist, kann effektiv über eine breite Palette von Downstream-Anwendungen angepasst werden, entweder durch leichtgewichtiges Fine-Tuning oder durch weiteres Training. Besuchen Sie die Projektseite unter https://seaweed.video/.