ChatPaper.aiChatPaper

LightBagel: 統一的なマルチモーダル理解と生成のための軽量・二重融合フレームワーク

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

October 27, 2025
著者: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI

要旨

統合マルチモーダルモデルは近年、能力と汎用性の両面で著しい向上を見せているが、主要なシステムの多くは依然としてスクラッチから訓練され、多大な計算資源を必要としている。本論文では、生成または理解のいずれかに特化した公開モデルを戦略的に融合することで、競争力のある性能をはるかに効率的に達成できることを示す。我々の主要な設計は、元のブロックを保持しつつ、ネットワーク全体にマルチモーダル自己注意ブロックを追加して交互に配置することである。この二重融合メカニズムは、(1) ベースモデルの元の強みを大きく保ちながら、豊富なマルチモーダル融合を効果的に実現し、(2) 理解エンコーダからの高レベルな意味表現と、生成エンコーダからの低レベルな空間信号との相乗的な融合を促進する。約35Bトークンのみで訓練したこのアプローチは、複数のベンチマークで強力な結果を達成した:構成的テキスト画像生成におけるGenEvalで0.91、複雑なテキスト画像生成におけるDPG-Benchで82.16、画像編集におけるGEditBenchで6.06、ImgEdit-Benchで3.77である。コード、モデル重み、データセットの全てを完全に公開することで、統合マルチモーダルモデリングの将来の研究を支援したい。
English
Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
PDF162December 31, 2025