Opkomende eigenschappen in geünificeerde multimodale voorafgaande training

Samenvatting

Het unificeren van multimodale interpretatie en generatie heeft indrukwekkende mogelijkheden getoond in geavanceerde propriëtaire systemen. In dit werk introduceren we BAGEL, een open-source fundamenteel model dat van nature multimodale interpretatie en generatie ondersteunt. BAGEL is een geünificeerd, decoder-only model dat voorgetraind is op biljoenen tokens, samengesteld uit grootschalige interleaved tekst-, beeld-, video- en webdata. Wanneer het wordt geschaald met dergelijke diverse multimodale interleaved data, vertoont BAGEL opkomende capaciteiten in complexe multimodale redenering. Als resultaat presteert het aanzienlijk beter dan open-source geünificeerde modellen in zowel multimodale generatie als interpretatie op standaard benchmarks, terwijl het geavanceerde multimodale redeneervaardigheden vertoont, zoals vrije beeldmanipulatie, voorspelling van toekomstige frames, 3D-manipulatie en wereldnavigatie. In de hoop verdere mogelijkheden voor multimodaal onderzoek te faciliteren, delen we de belangrijkste bevindingen, details over de voorafgaande training, het protocol voor datacreatie, en geven we onze code en checkpoints vrij aan de gemeenschap. De projectpagina is te vinden op https://bagel-ai.org/.

English

Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

Opkomende eigenschappen in geünificeerde multimodale voorafgaande training

Emerging Properties in Unified Multimodal Pretraining

Samenvatting

Summary

Support

Support