Seaweed-7B: Treinamento Custo-Eficiente de um Modelo Base para Geração de VídeosSeaweed-7B: Cost-Effective Training of Video Generation Foundation Model
Este relatório técnico apresenta uma estratégia de custo eficiente para treinar um modelo base de geração de vídeo. Apresentamos um modelo de pesquisa de médio porte com aproximadamente 7 bilhões de parâmetros (7B), chamado Seaweed-7B, treinado do zero utilizando 665.000 horas de GPU H100. Apesar de ter sido treinado com recursos computacionais moderados, o Seaweed-7B demonstra um desempenho altamente competitivo em comparação com modelos contemporâneos de geração de vídeo de tamanho muito maior. As escolhas de design são especialmente cruciais em um cenário com recursos limitados. Este relatório técnico destaca as principais decisões de design que melhoram o desempenho do modelo de difusão de médio porte. Empiricamente, fazemos duas observações: (1) o Seaweed-7B alcança um desempenho comparável ou até superior a modelos maiores treinados com recursos de GPU substancialmente maiores, e (2) nosso modelo, que exibe uma forte capacidade de generalização, pode ser efetivamente adaptado para uma ampla gama de aplicações downstream, seja por meio de ajuste fino leve ou por treinamento contínuo. Consulte a página do projeto em https://seaweed.video/