ChatPaper.aiChatPaper

統一マルチモーダル事前学習における新たな特性

Emerging Properties in Unified Multimodal Pretraining

May 20, 2025
著者: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI

要旨

マルチモーダルな理解と生成を統合することは、最先端のプロプライエタリシステムにおいて印象的な能力を示してきました。本研究では、マルチモーダルな理解と生成をネイティブにサポートするオープンソースの基盤モデルであるBAGELを紹介します。BAGELは、大規模なテキスト、画像、動画、ウェブデータからキュレートされた数兆トークンで事前学習された、統一されたデコーダのみのモデルです。このような多様なマルチモーダルなインタリーブデータでスケールすると、BAGELは複雑なマルチモーダル推論において新たな能力を示します。その結果、標準ベンチマークにおいて、マルチモーダル生成と理解の両方でオープンソースの統合モデルを大幅に上回り、自由形式の画像操作、未来フレーム予測、3D操作、世界ナビゲーションなどの高度なマルチモーダル推論能力を示します。マルチモーダル研究のさらなる機会を促進することを願って、主要な発見、事前学習の詳細、データ作成プロトコルを共有し、コードとチェックポイントをコミュニティに公開します。プロジェクトページはhttps://bagel-ai.org/にあります。
English
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

Summary

AI-Generated Summary

PDF802May 21, 2025