映画ジェン:メディア基盤モデルのキャストMovie Gen: A Cast of Media Foundation Models
Movie Genは、異なるアスペクト比と同期オーディオを備えた高品質な1080p HDビデオを生成する基盤モデルのキャストを提供します。また、正確な指示に基づくビデオ編集やユーザーの画像に基づく個人用ビデオの生成などの追加機能も示します。当社のモデルは、複数のタスクにおいて新たな最先端を確立しています:テキストからビデオへの合成、ビデオの個人化、ビデオ編集、ビデオからオーディオの生成、およびテキストからオーディオの生成。当社の最大のビデオ生成モデルは、73Kビデオトークンの最大コンテキスト長で訓練された30Bパラメータのトランスフォーマーであり、16フレーム/秒で生成された16秒のビデオに相当します。我々は、事前トレーニングデータ、モデルサイズ、およびトレーニングコンピューティングのスケーリングの恩恵を受けるためのアーキテクチャ、潜在空間、トレーニング目標とレシピ、データキュレーション、評価プロトコル、並列化技術、および推論最適化に関する複数の技術革新と簡素化を示します。本論文がメディア生成モデルの進歩と革新を加速させるための研究コミュニティに役立つことを願っています。本論文のすべてのビデオは、https://go.fb.me/MovieGenResearchVideos でご覧いただけます。