ChatPaper.aiChatPaper

통합 멀티모달 사전 학습에서 나타나는 새로운 특성들

Emerging Properties in Unified Multimodal Pretraining

May 20, 2025
저자: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
cs.AI

초록

멀티모달 이해와 생성을 통합하는 것은 최첨단 독점 시스템에서 인상적인 능력을 보여주고 있습니다. 본 연구에서는 멀티모달 이해와 생성을 기본적으로 지원하는 오픈소스 기초 모델인 BAGEL을 소개합니다. BAGEL은 대규모로 인터리브된 텍스트, 이미지, 비디오, 웹 데이터에서 선별된 수조 개의 토큰으로 사전 학습된 통합 디코더 전용 모델입니다. 이러한 다양한 멀티모달 인터리브 데이터로 확장된 BAGEL은 복잡한 멀티모달 추론에서 새로운 능력을 보여줍니다. 그 결과, BAGEL은 표준 벤치마크에서 멀티모달 생성과 이해 모두에서 오픈소스 통합 모델을 크게 능가하며, 자유형 이미지 조작, 미래 프레임 예측, 3D 조작, 세계 탐색과 같은 고급 멀티모달 추론 능력을 보여줍니다. 멀티모달 연구의 추가 기회를 촉진하기 위해, 주요 발견, 사전 학습 세부 사항, 데이터 생성 프로토콜을 공유하고 코드와 체크포인트를 커뮤니티에 공개합니다. 프로젝트 페이지는 https://bagel-ai.org/에서 확인할 수 있습니다.
English
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

Summary

AI-Generated Summary

PDF802May 21, 2025