Opkomende eigenschappen in geünificeerde multimodale voorafgaande training
Emerging Properties in Unified Multimodal Pretraining
May 20, 2025
Auteurs: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI
Samenvatting
Het unificeren van multimodale interpretatie en generatie heeft indrukwekkende mogelijkheden getoond in geavanceerde propriëtaire systemen. In dit werk introduceren we BAGEL, een open-source fundamenteel model dat van nature multimodale interpretatie en generatie ondersteunt. BAGEL is een geünificeerd, decoder-only model dat voorgetraind is op biljoenen tokens, samengesteld uit grootschalige interleaved tekst-, beeld-, video- en webdata. Wanneer het wordt geschaald met dergelijke diverse multimodale interleaved data, vertoont BAGEL opkomende capaciteiten in complexe multimodale redenering. Als resultaat presteert het aanzienlijk beter dan open-source geünificeerde modellen in zowel multimodale generatie als interpretatie op standaard benchmarks, terwijl het geavanceerde multimodale redeneervaardigheden vertoont, zoals vrije beeldmanipulatie, voorspelling van toekomstige frames, 3D-manipulatie en wereldnavigatie. In de hoop verdere mogelijkheden voor multimodaal onderzoek te faciliteren, delen we de belangrijkste bevindingen, details over de voorafgaande training, het protocol voor datacreatie, en geven we onze code en checkpoints vrij aan de gemeenschap. De projectpagina is te vinden op https://bagel-ai.org/.
English
Unifying multimodal understanding and generation has shown impressive
capabilities in cutting-edge proprietary systems. In this work, we introduce
BAGEL, an open0source foundational model that natively supports multimodal
understanding and generation. BAGEL is a unified, decoder0only model pretrained
on trillions of tokens curated from large0scale interleaved text, image, video,
and web data. When scaled with such diverse multimodal interleaved data, BAGEL
exhibits emerging capabilities in complex multimodal reasoning. As a result, it
significantly outperforms open-source unified models in both multimodal
generation and understanding across standard benchmarks, while exhibiting
advanced multimodal reasoning abilities such as free-form image manipulation,
future frame prediction, 3D manipulation, and world navigation. In the hope of
facilitating further opportunities for multimodal research, we share the key
findings, pretraining details, data creation protocal, and release our code and
checkpoints to the community. The project page is at https://bagel-ai.org/Summary
AI-Generated Summary