Proprietà Emergenti nel Pretraining Multimodale Unificato
Emerging Properties in Unified Multimodal Pretraining
May 20, 2025
Autori: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI
Abstract
L'unificazione della comprensione e generazione multimodale ha dimostrato capacità impressionanti nei sistemi proprietari all'avanguardia. In questo lavoro, introduciamo BAGEL, un modello fondazionale open-source che supporta nativamente la comprensione e generazione multimodale. BAGEL è un modello unificato, esclusivamente decoder, pre-addestrato su trilioni di token curati da dati intercalati su larga scala di testo, immagini, video e web. Quando scalato con dati intercalati multimodali così diversificati, BAGEL mostra capacità emergenti nel ragionamento multimodale complesso. Di conseguenza, supera significativamente i modelli unificati open-source sia nella generazione che nella comprensione multimodale attraverso benchmark standard, dimostrando al contempo abilità avanzate di ragionamento multimodale come la manipolazione libera di immagini, la previsione di frame futuri, la manipolazione 3D e la navigazione nel mondo. Con l'obiettivo di facilitare ulteriori opportunità per la ricerca multimodale, condividiamo i risultati chiave, i dettagli del pre-addestramento, il protocollo di creazione dei dati e rilasciamo il nostro codice e checkpoint alla comunità. La pagina del progetto è disponibile all'indirizzo https://bagel-ai.org/
English
Unifying multimodal understanding and generation has shown impressive
capabilities in cutting-edge proprietary systems. In this work, we introduce
BAGEL, an open0source foundational model that natively supports multimodal
understanding and generation. BAGEL is a unified, decoder0only model pretrained
on trillions of tokens curated from large0scale interleaved text, image, video,
and web data. When scaled with such diverse multimodal interleaved data, BAGEL
exhibits emerging capabilities in complex multimodal reasoning. As a result, it
significantly outperforms open-source unified models in both multimodal
generation and understanding across standard benchmarks, while exhibiting
advanced multimodal reasoning abilities such as free-form image manipulation,
future frame prediction, 3D manipulation, and world navigation. In the hope of
facilitating further opportunities for multimodal research, we share the key
findings, pretraining details, data creation protocal, and release our code and
checkpoints to the community. The project page is at https://bagel-ai.org/