ChatPaper.aiChatPaper

Entstehende Eigenschaften in einheitlichem multimodalen Vortraining

Emerging Properties in Unified Multimodal Pretraining

May 20, 2025
Autoren: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI

Zusammenfassung

Die Vereinheitlichung von multimodalem Verständnis und Generierung hat in modernen proprietären Systemen beeindruckende Fähigkeiten gezeigt. In dieser Arbeit stellen wir BAGEL vor, ein Open-Source-Grundlagenmodell, das nativ multimodales Verständnis und Generierung unterstützt. BAGEL ist ein einheitliches, ausschließlich auf Decodern basierendes Modell, das auf Billionen von Tokens vortrainiert wurde, die aus groß angelegten, verschachtelten Text-, Bild-, Video- und Webdaten kuratiert wurden. Wenn es mit solch vielfältigen, verschachtelten multimodalen Daten skaliert wird, zeigt BAGEL aufkommende Fähigkeiten im komplexen multimodalen Schlussfolgern. Infolgedessen übertrifft es Open-Source-Vereinheitsmodelle sowohl in der multimodalen Generierung als auch im Verständnis über Standard-Benchmarks hinweg deutlich, während es fortgeschrittene multimodale Schlussfolgerungsfähigkeiten wie freie Bildmanipulation, Vorhersage zukünftiger Bildsequenzen, 3D-Manipulation und Weltnavigation zeigt. In der Hoffnung, weitere Möglichkeiten für die multimodale Forschung zu eröffnen, teilen wir die wichtigsten Erkenntnisse, Details zum Vortraining, das Datenkuratierungsprotokoll und stellen unseren Code sowie Checkpoints der Gemeinschaft zur Verfügung. Die Projektseite befindet sich unter https://bagel-ai.org/.
English
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

Summary

AI-Generated Summary

PDF832May 21, 2025