Propriétés émergentes dans le prétraitement multimodal unifié
Emerging Properties in Unified Multimodal Pretraining
May 20, 2025
Auteurs: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI
Résumé
L'unification de la compréhension et de la génération multimodales a démontré des capacités impressionnantes dans les systèmes propriétaires de pointe. Dans ce travail, nous présentons BAGEL, un modèle fondamental open-source qui prend en charge nativement la compréhension et la génération multimodales. BAGEL est un modèle unifié, basé uniquement sur un décodeur, pré-entraîné sur des milliers de milliards de tokens issus de données intercalées à grande échelle, incluant du texte, des images, des vidéos et des données web. Lorsqu'il est mis à l'échelle avec des données multimodales intercalées aussi diversifiées, BAGEL montre des capacités émergentes en raisonnement multimodal complexe. En conséquence, il surpasse significativement les modèles unifiés open-source à la fois en génération et en compréhension multimodales sur des benchmarks standards, tout en démontrant des capacités avancées de raisonnement multimodal telles que la manipulation d'images libres, la prédiction de cadres futurs, la manipulation 3D et la navigation dans des environnements virtuels. Dans l'espoir de faciliter de nouvelles opportunités pour la recherche multimodale, nous partageons les principales découvertes, les détails du pré-entraînement, le protocole de création des données, et mettons à disposition notre code et nos points de contrôle à la communauté. La page du projet est accessible à l'adresse suivante : https://bagel-ai.org/
English
Unifying multimodal understanding and generation has shown impressive
capabilities in cutting-edge proprietary systems. In this work, we introduce
BAGEL, an open0source foundational model that natively supports multimodal
understanding and generation. BAGEL is a unified, decoder0only model pretrained
on trillions of tokens curated from large0scale interleaved text, image, video,
and web data. When scaled with such diverse multimodal interleaved data, BAGEL
exhibits emerging capabilities in complex multimodal reasoning. As a result, it
significantly outperforms open-source unified models in both multimodal
generation and understanding across standard benchmarks, while exhibiting
advanced multimodal reasoning abilities such as free-form image manipulation,
future frame prediction, 3D manipulation, and world navigation. In the hope of
facilitating further opportunities for multimodal research, we share the key
findings, pretraining details, data creation protocal, and release our code and
checkpoints to the community. The project page is at https://bagel-ai.org/Summary
AI-Generated Summary