Filme Gen: Um Elenco de Modelos de Fundação de MídiaMovie Gen: A Cast of Media Foundation Models
Apresentamos o Movie Gen, um elenco de modelos fundamentais que gera vídeos de alta qualidade em HD de 1080p com diferentes proporções de aspecto e áudio sincronizado. Também demonstramos capacidades adicionais, como edição de vídeo precisa baseada em instruções e geração de vídeos personalizados com base na imagem de um usuário. Nossos modelos estabelecem um novo estado da arte em várias tarefas: síntese de texto para vídeo, personalização de vídeo, edição de vídeo, geração de áudio para vídeo e geração de áudio para texto. Nosso maior modelo de geração de vídeo é um transformador de 30B parâmetros treinado com um comprimento máximo de contexto de 73 mil tokens de vídeo, correspondendo a um vídeo gerado de 16 segundos a 16 quadros por segundo. Apresentamos múltiplas inovações técnicas e simplificações na arquitetura, espaços latentes, objetivos e receitas de treinamento, curadoria de dados, protocolos de avaliação, técnicas de paralelização e otimizações de inferência que nos permitem colher os benefícios da escala de dados de pré-treinamento, tamanho do modelo e poder de treinamento para treinar modelos de geração de mídia em grande escala. Esperamos que este artigo ajude a comunidade de pesquisa a acelerar o progresso e a inovação em modelos de geração de mídia. Todos os vídeos deste artigo estão disponíveis em https://go.fb.me/MovieGenResearchVideos.