Film Gen: Eine Besetzung von Medien-GrundlagenmodellenMovie Gen: A Cast of Media Foundation Models
Wir präsentieren Movie Gen, eine Gruppe von Grundlagenmodellen, die hochwertige, 1080p HD-Videos mit verschiedenen Seitenverhältnissen und synchronisiertem Audio generiert. Wir zeigen auch zusätzliche Fähigkeiten wie präzise instruktionsbasierte Videobearbeitung und die Generierung personalisierter Videos basierend auf einem Benutzerbild. Unsere Modelle setzen einen neuen State-of-the-Art in mehreren Aufgaben: Text-zu-Video-Synthese, Video-Personalisierung, Videobearbeitung, Video-zu-Audio-Generierung und Text-zu-Audio-Generierung. Unser größtes Video-Generierungsmodell ist ein 30B-Parameter-Transformer, der mit einer maximalen Kontextlänge von 73K Video-Token trainiert wurde, was einem generierten Video von 16 Sekunden bei 16 Bildern pro Sekunde entspricht. Wir zeigen mehrere technische Innovationen und Vereinfachungen in der Architektur, den latenten Räumen, den Trainingszielen und Rezepten, der Datenaufbereitung, den Evaluierungsprotokollen, den Parallelisierungstechniken und den Inferenzoptimierungen, die es uns ermöglichen, die Vorteile der Skalierung von Vortrainingsdaten, Modellgröße und Trainingsrechenleistung für das Training von groß angelegten Medien-Generierungsmodellen zu nutzen. Wir hoffen, dass dieser Artikel der Forschungsgemeinschaft hilft, Fortschritte und Innovationen in Medien-Generierungsmodellen zu beschleunigen. Alle Videos aus diesem Artikel sind unter https://go.fb.me/MovieGenResearchVideos verfügbar.