Возникающие свойства в унифицированном многомодальном предобучении
Emerging Properties in Unified Multimodal Pretraining
May 20, 2025
Авторы: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI
Аннотация
Объединение мультимодального понимания и генерации продемонстрировало впечатляющие возможности в передовых проприетарных системах. В данной работе мы представляем BAGEL — открытую базовую модель, которая изначально поддерживает мультимодальное понимание и генерацию. BAGEL представляет собой унифицированную модель, использующую только декодер, предварительно обученную на триллионах токенов, отобранных из крупномасштабных переплетенных данных, включающих текст, изображения, видео и веб-данные. При масштабировании с использованием таких разнообразных мультимодальных данных BAGEL демонстрирует возникающие способности к сложному мультимодальному рассуждению. В результате она значительно превосходит открытые унифицированные модели как в мультимодальной генерации, так и в понимании на стандартных тестах, одновременно проявляя продвинутые способности к мультимодальному рассуждению, такие как свободное манипулирование изображениями, предсказание будущих кадров, 3D-манипуляции и навигация в мире. С целью содействия дальнейшим исследованиям в области мультимодальности мы делимся ключевыми результатами, деталями предварительного обучения, протоколом создания данных, а также публикуем наш код и контрольные точки для сообщества. Страница проекта доступна по адресу https://bagel-ai.org/.
English
Unifying multimodal understanding and generation has shown impressive
capabilities in cutting-edge proprietary systems. In this work, we introduce
BAGEL, an open0source foundational model that natively supports multimodal
understanding and generation. BAGEL is a unified, decoder0only model pretrained
on trillions of tokens curated from large0scale interleaved text, image, video,
and web data. When scaled with such diverse multimodal interleaved data, BAGEL
exhibits emerging capabilities in complex multimodal reasoning. As a result, it
significantly outperforms open-source unified models in both multimodal
generation and understanding across standard benchmarks, while exhibiting
advanced multimodal reasoning abilities such as free-form image manipulation,
future frame prediction, 3D manipulation, and world navigation. In the hope of
facilitating further opportunities for multimodal research, we share the key
findings, pretraining details, data creation protocal, and release our code and
checkpoints to the community. The project page is at https://bagel-ai.org/Summary
AI-Generated Summary