ChatPaper.aiChatPaper

Propiedades Emergentes en el Pretrenamiento Unificado Multimodal

Emerging Properties in Unified Multimodal Pretraining

May 20, 2025
Autores: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI

Resumen

La unificación de la comprensión y generación multimodal ha demostrado capacidades impresionantes en sistemas propietarios de vanguardia. En este trabajo, presentamos BAGEL, un modelo fundacional de código abierto que soporta de manera nativa la comprensión y generación multimodal. BAGEL es un modelo unificado, exclusivamente de decodificación, preentrenado con billones de tokens seleccionados de datos intercalados a gran escala que incluyen texto, imágenes, videos y contenido web. Al escalarse con datos intercalados multimodales tan diversos, BAGEL exhibe capacidades emergentes en razonamiento multimodal complejo. Como resultado, supera significativamente a los modelos unificados de código abierto tanto en generación como en comprensión multimodal en benchmarks estándar, al tiempo que muestra habilidades avanzadas de razonamiento multimodal, como la manipulación libre de imágenes, la predicción de fotogramas futuros, la manipulación 3D y la navegación en entornos virtuales. Con el objetivo de facilitar nuevas oportunidades para la investigación multimodal, compartimos los hallazgos clave, los detalles del preentrenamiento, el protocolo de creación de datos, y liberamos nuestro código y puntos de control para la comunidad. La página del proyecto se encuentra en https://bagel-ai.org/.
English
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

Summary

AI-Generated Summary

PDF832May 21, 2025