ChatPaper.aiChatPaper

映画ジェン:メディア基盤モデルのキャスト

Movie Gen: A Cast of Media Foundation Models

October 17, 2024
著者: Adam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du
cs.AI

要旨

Movie Genは、異なるアスペクト比と同期オーディオを備えた高品質な1080p HDビデオを生成する基盤モデルのキャストを提供します。また、正確な指示に基づくビデオ編集やユーザーの画像に基づく個人用ビデオの生成などの追加機能も示します。当社のモデルは、複数のタスクにおいて新たな最先端を確立しています:テキストからビデオへの合成、ビデオの個人化、ビデオ編集、ビデオからオーディオの生成、およびテキストからオーディオの生成。当社の最大のビデオ生成モデルは、73Kビデオトークンの最大コンテキスト長で訓練された30Bパラメータのトランスフォーマーであり、16フレーム/秒で生成された16秒のビデオに相当します。我々は、事前トレーニングデータ、モデルサイズ、およびトレーニングコンピューティングのスケーリングの恩恵を受けるためのアーキテクチャ、潜在空間、トレーニング目標とレシピ、データキュレーション、評価プロトコル、並列化技術、および推論最適化に関する複数の技術革新と簡素化を示します。本論文がメディア生成モデルの進歩と革新を加速させるための研究コミュニティに役立つことを願っています。本論文のすべてのビデオは、https://go.fb.me/MovieGenResearchVideos でご覧いただけます。
English
We present Movie Gen, a cast of foundation models that generates high-quality, 1080p HD videos with different aspect ratios and synchronized audio. We also show additional capabilities such as precise instruction-based video editing and generation of personalized videos based on a user's image. Our models set a new state-of-the-art on multiple tasks: text-to-video synthesis, video personalization, video editing, video-to-audio generation, and text-to-audio generation. Our largest video generation model is a 30B parameter transformer trained with a maximum context length of 73K video tokens, corresponding to a generated video of 16 seconds at 16 frames-per-second. We show multiple technical innovations and simplifications on the architecture, latent spaces, training objectives and recipes, data curation, evaluation protocols, parallelization techniques, and inference optimizations that allow us to reap the benefits of scaling pre-training data, model size, and training compute for training large scale media generation models. We hope this paper helps the research community to accelerate progress and innovation in media generation models. All videos from this paper are available at https://go.fb.me/MovieGenResearchVideos.

Summary

AI-Generated Summary

PDF992November 16, 2024