Seaweed-7B: 비용 효율적인 비디오 생성 기반 모델 학습Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
본 기술 보고서는 비디오 생성 기반 모델을 훈련시키기 위한 비용 효율적인 전략을 제시합니다. 우리는 약 7억 개의 파라미터(7B)를 가진 중간 규모의 연구 모델인 Seaweed-7B를 소개하며, 이 모델은 665,000 H100 GPU 시간을 사용해 처음부터 훈련되었습니다. 중간 규모의 컴퓨팅 자원으로 훈련되었음에도 불구하고, Seaweed-7B는 훨씬 더 큰 규모의 동시대 비디오 생성 모델들과 비교해 매우 경쟁력 있는 성능을 보여줍니다. 자원이 제한된 환경에서는 설계 선택이 특히 중요합니다. 이 기술 보고서는 중간 규모의 확산 모델의 성능을 향상시키는 주요 설계 결정을 강조합니다. 실험적으로 우리는 두 가지 관찰을 했습니다: (1) Seaweed-7B는 훨씬 더 많은 GPU 자원으로 훈련된 더 큰 모델들과 비슷하거나 오히려 뛰어난 성능을 달성하며, (2) 강력한 일반화 능력을 보이는 우리 모델은 경량 미세 조정 또는 추가 훈련을 통해 다양한 다운스트림 애플리케이션에 효과적으로 적용될 수 있습니다. 프로젝트 페이지는 https://seaweed.video/에서 확인할 수 있습니다.