ChatPaper.aiChatPaper

LightBagel: 통합 멀티모달 이해 및 생성을 위한 경량 이중 융합 프레임워크

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

October 27, 2025
저자: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI

초록

통합 멀티모달 모델들은 최근 능력과 다양성 모두에서 놀라운 향상을 보여주고 있으나, 대부분의 주요 시스템들은 여전히 처음부터 훈련되며 상당한 계산 자원을 필요로 합니다. 본 논문에서는 생성이나 이해 중 특정 영역에 특화된 공개 모델들을 전략적으로 융합함으로써 훨씬 더 효율적으로 경쟁력 있는 성능을 얻을 수 있음을 보여줍니다. 우리의 핵심 설계는 원본 블록들을 보존하면서 네트워크 전반에 걸쳐 멀티모달 자가 주의 블록들을 추가로 교차 배치하는 것입니다. 이 이중 융합 메커니즘은 (1) 기본 모델들의 원래 강점을 크게 보존하면서도 풍부한 멀티모달 융합을 효과적으로 가능하게 하며, (2) 이해 인코더의 고수준 의미 표현과 생성 인코더의 저수준 공간 신호 간의 시너지 효과적인 융합을 촉진합니다. 약 350억 개의 토큰만으로 훈련하여 이 접근법은 여러 벤치마크에서 강력한 결과를 달성했습니다: 구성적 텍스트-이미지 생성에서 GenEval 0.91, 복잡한 텍스트-이미지 생성에서 DPG-Bench 82.16, 이미지 편집에서 GEditBench 6.06 및 ImgEdit-Bench 3.77입니다. 코드, 모델 가중치, 데이터셋 전체를 완전히 공개함으로써 통합 멀티모달 모델링에 대한 향후 연구를 지원하고자 합니다.
English
Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
PDF162December 31, 2025