Seaweed-7B : Entraînement économique d'un modèle de base pour la génération vidéoSeaweed-7B: Cost-Effective Training of Video Generation Foundation Model
Ce rapport technique présente une stratégie rentable pour entraîner un modèle de base de génération vidéo. Nous introduisons un modèle de recherche de taille moyenne, nommé Seaweed-7B, comprenant environ 7 milliards de paramètres (7B), entraîné à partir de zéro en utilisant 665 000 heures de GPU H100. Bien qu'ayant été entraîné avec des ressources computationnelles modérées, Seaweed-7B démontre des performances très compétitives par rapport aux modèles contemporains de génération vidéo de taille bien plus importante. Les choix de conception sont particulièrement cruciaux dans un contexte de ressources limitées. Ce rapport technique met en lumière les décisions clés de conception qui améliorent les performances de ce modèle de diffusion de taille moyenne. Empiriquement, nous faisons deux observations : (1) Seaweed-7B atteint des performances comparables, voire supérieures, à celles de modèles plus grands entraînés avec des ressources GPU bien plus importantes, et (2) notre modèle, qui présente une forte capacité de généralisation, peut être efficacement adapté à un large éventail d'applications en aval, que ce soit par un ajustement fin léger ou par un entraînement continu. Consultez la page du projet à l'adresse suivante : https://seaweed.video/