Propriétés émergentes dans le prétraitement multimodal unifiéEmerging Properties in Unified Multimodal Pretraining
L'unification de la compréhension et de la génération multimodales a démontré des capacités impressionnantes dans les systèmes propriétaires de pointe. Dans ce travail, nous présentons BAGEL, un modèle fondamental open-source qui prend en charge nativement la compréhension et la génération multimodales. BAGEL est un modèle unifié, basé uniquement sur un décodeur, pré-entraîné sur des milliers de milliards de tokens issus de données intercalées à grande échelle, incluant du texte, des images, des vidéos et des données web. Lorsqu'il est mis à l'échelle avec des données multimodales intercalées aussi diversifiées, BAGEL montre des capacités émergentes en raisonnement multimodal complexe. En conséquence, il surpasse significativement les modèles unifiés open-source à la fois en génération et en compréhension multimodales sur des benchmarks standards, tout en démontrant des capacités avancées de raisonnement multimodal telles que la manipulation d'images libres, la prédiction de cadres futurs, la manipulation 3D et la navigation dans des environnements virtuels. Dans l'espoir de faciliter de nouvelles opportunités pour la recherche multimodale, nous partageons les principales découvertes, les détails du pré-entraînement, le protocole de création des données, et mettons à disposition notre code et nos points de contrôle à la communauté. La page du projet est accessible à l'adresse suivante : https://bagel-ai.org/