ChatPaper.aiChatPaper

Propriedades Emergentes no Pré-treinamento Multimodal Unificado

Emerging Properties in Unified Multimodal Pretraining

May 20, 2025
Autores: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI

Resumo

A unificação da compreensão e geração multimodal tem demonstrado capacidades impressionantes em sistemas proprietários de ponta. Neste trabalho, apresentamos o BAGEL, um modelo fundamental de código aberto que suporta nativamente a compreensão e geração multimodal. O BAGEL é um modelo unificado, exclusivamente de decodificação, pré-treinado em trilhões de tokens curados a partir de dados intercalados em grande escala de texto, imagens, vídeos e da web. Quando dimensionado com dados intercalados multimodais tão diversos, o BAGEL exibe capacidades emergentes em raciocínio multimodal complexo. Como resultado, ele supera significativamente os modelos unificados de código aberto tanto na geração quanto na compreensão multimodal em benchmarks padrão, ao mesmo tempo que demonstra habilidades avançadas de raciocínio multimodal, como manipulação livre de imagens, previsão de quadros futuros, manipulação 3D e navegação no mundo. Na esperança de facilitar novas oportunidades para pesquisas multimodais, compartilhamos as principais descobertas, detalhes do pré-treinamento, protocolo de criação de dados, e disponibilizamos nosso código e checkpoints para a comunidade. A página do projeto está em https://bagel-ai.org/.
English
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/
PDF1344December 16, 2025