Кино Ген: Ансамбль Моделей Основы МедиаMovie Gen: A Cast of Media Foundation Models
Мы представляем Movie Gen - набор базовых моделей, способных генерировать видеоролики высокого качества разрешением 1080p с различными соотношениями сторон и синхронизированным аудио. Мы также демонстрируем дополнительные возможности, такие как точное редактирование видео на основе инструкций и создание персонализированных видеороликов на основе изображения пользователя. Наши модели устанавливают новый уровень качества в нескольких задачах: синтез видео по тексту, персонализация видео, редактирование видео, генерация аудио из видео и генерация аудио по тексту. Наша самая крупная модель для генерации видео имеет 30 миллиардов параметров трансформера, обученного с максимальной длиной контекста 73 тыс. видео-токенов, что соответствует созданию видео длительностью 16 секунд при частоте кадров 16 кадров в секунду. Мы представляем несколько технических инноваций и упрощений в архитектуре, латентных пространствах, целях обучения и рецептах, курировании данных, протоколах оценки, техниках параллелизации и оптимизации вывода, которые позволяют нам получить преимущества масштабирования предварительного обучения данных, размера модели и вычислительных ресурсов для обучения моделей генерации медиаконтента большого масштаба. Мы надеемся, что данная статья поможет научному сообществу ускорить прогресс и инновации в области моделей генерации медиаконтента. Все видеоролики из этой статьи доступны по ссылке https://go.fb.me/MovieGenResearchVideos.