統一マルチモーダル事前学習における新たな特性Emerging Properties in Unified Multimodal Pretraining
マルチモーダルな理解と生成を統合することは、最先端のプロプライエタリシステムにおいて印象的な能力を示してきました。本研究では、マルチモーダルな理解と生成をネイティブにサポートするオープンソースの基盤モデルであるBAGELを紹介します。BAGELは、大規模なテキスト、画像、動画、ウェブデータからキュレートされた数兆トークンで事前学習された、統一されたデコーダのみのモデルです。このような多様なマルチモーダルなインタリーブデータでスケールすると、BAGELは複雑なマルチモーダル推論において新たな能力を示します。その結果、標準ベンチマークにおいて、マルチモーダル生成と理解の両方でオープンソースの統合モデルを大幅に上回り、自由形式の画像操作、未来フレーム予測、3D操作、世界ナビゲーションなどの高度なマルチモーダル推論能力を示します。マルチモーダル研究のさらなる機会を促進することを願って、主要な発見、事前学習の詳細、データ作成プロトコルを共有し、コードとチェックポイントをコミュニティに公開します。プロジェクトページはhttps://bagel-ai.org/にあります。