ChatPaper.aiChatPaper

Propriétés émergentes dans le prétraitement multimodal unifié

Emerging Properties in Unified Multimodal Pretraining

May 20, 2025
Auteurs: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI

Résumé

L'unification de la compréhension et de la génération multimodales a démontré des capacités impressionnantes dans les systèmes propriétaires de pointe. Dans ce travail, nous présentons BAGEL, un modèle fondamental open-source qui prend en charge nativement la compréhension et la génération multimodales. BAGEL est un modèle unifié, basé uniquement sur un décodeur, pré-entraîné sur des milliers de milliards de tokens issus de données intercalées à grande échelle, incluant du texte, des images, des vidéos et des données web. Lorsqu'il est mis à l'échelle avec des données multimodales intercalées aussi diversifiées, BAGEL montre des capacités émergentes en raisonnement multimodal complexe. En conséquence, il surpasse significativement les modèles unifiés open-source à la fois en génération et en compréhension multimodales sur des benchmarks standards, tout en démontrant des capacités avancées de raisonnement multimodal telles que la manipulation d'images libres, la prédiction de cadres futurs, la manipulation 3D et la navigation dans des environnements virtuels. Dans l'espoir de faciliter de nouvelles opportunités pour la recherche multimodale, nous partageons les principales découvertes, les détails du pré-entraînement, le protocole de création des données, et mettons à disposition notre code et nos points de contrôle à la communauté. La page du projet est accessible à l'adresse suivante : https://bagel-ai.org/
English
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

Summary

AI-Generated Summary

PDF832May 21, 2025