Generatore di Film: Un Cast di Modelli di Fondazione MediaMovie Gen: A Cast of Media Foundation Models
Presentiamo Movie Gen, un insieme di modelli fondamentali che genera video ad alta qualità in HD a 1080p con diversi rapporti di aspetto e audio sincronizzato. Mostriamo inoltre capacità aggiuntive come il montaggio video preciso basato su istruzioni e la generazione di video personalizzati basati sull'immagine di un utente. I nostri modelli stabiliscono un nuovo stato dell'arte su molteplici compiti: sintesi testo-video, personalizzazione video, montaggio video, generazione video-audio e generazione testo-audio. Il nostro modello di generazione video più grande è un transformer con 30 miliardi di parametri addestrato con una lunghezza massima del contesto di 73.000 token video, corrispondente a un video generato di 16 secondi a 16 fotogrammi al secondo. Mostriamo diverse innovazioni tecniche e semplificazioni sull'architettura, spazi latenti, obiettivi e ricette di addestramento, cura dei dati, protocolli di valutazione, tecniche di parallelizzazione e ottimizzazioni dell'inferenza che ci consentono di sfruttare i vantaggi della scalabilità dei dati di pre-addestramento, delle dimensioni del modello e del calcolo di addestramento per modelli di generazione di media su larga scala. Speriamo che questo articolo aiuti la comunità di ricerca ad accelerare il progresso e l'innovazione nei modelli di generazione di media. Tutti i video di questo articolo sono disponibili su https://go.fb.me/MovieGenResearchVideos.