영화 Gen: 미디어 기반 모델 캐스트Movie Gen: A Cast of Media Foundation Models
저희는 고화질 1080p HD 비디오를 다양한 종횡비와 동기화된 오디오로 생성하는 Movie Gen이라는 기초 모델 캐스트를 제시합니다. 또한 정확한 지시사항 기반 비디오 편집 및 사용자 이미지를 기반으로 한 맞춤형 비디오 생성과 같은 추가 기능을 보여줍니다. 저희 모델은 다중 작업에서 새로운 최첨단을 세우고 있습니다: 텍스트에서 비디오로의 합성, 비디오 개인화, 비디오 편집, 비디오에서 오디오 생성, 그리고 텍스트에서 오디오 생성. 저희 가장 큰 비디오 생성 모델은 30B 파라미터 트랜스포머로, 최대 73K 비디오 토큰의 컨텍스트 길이로 훈련되어, 초당 16프레임의 16초 비디오를 생성합니다. 저희는 사전 훈련 데이터, 모델 크기, 그리고 훈련 컴퓨트의 스케일링 이점을 누릴 수 있도록 아키텍처, 잠재 공간, 훈련 목표 및 레시피, 데이터 선별, 평가 프로토콜, 병렬화 기술, 그리고 추론 최적화에 대한 다양한 기술적 혁신과 단순화를 보여줍니다. 이 논문이 미디어 생성 모델의 진보와 혁신을 가속화하는 데 연구 커뮤니티에 도움이 되기를 희망합니다. 본 논문의 모든 비디오는 https://go.fb.me/MovieGenResearchVideos에서 확인할 수 있습니다.