LightBagel : Un cadre de fusion double léger pour la compréhension et la génération multimodales unifiées
LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
October 27, 2025
papers.authors: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI
papers.abstract
Les modèles multimodaux unifiés ont récemment montré des progrès remarquables en capacité et polyvalence, mais la plupart des systèmes leaders restent entraînés à partir de zéro et nécessitent des ressources computationnelles substantielles. Dans cet article, nous démontrons qu’une performance compétitive peut être obtenue bien plus efficacement en fusionnant stratégiquement des modèles publics spécialisés soit pour la génération, soit pour la compréhension. Notre conception clé consiste à conserver les blocs originaux tout en intercalant de manière supplémentaire des blocs d’auto-attention multimodale dans l’ensemble des réseaux. Ce mécanisme de double fusion (1) permet efficacement une riche fusion multimodale tout en préservant largement les forces originales des modèles de base, et (2) catalyse une fusion synergique des représentations sémantiques de haut niveau provenant de l’encodeur de compréhension avec les signaux spatiaux de bas niveau issus de l’encodeur de génération. En s’entraînant avec seulement ~35 milliards de tokens, cette approche obtient des résultats solides sur plusieurs benchmarks : 0,91 sur GenEval pour la génération compositionnelle texte-image, 82,16 sur DPG-Bench pour la génération complexe texte-image, 6,06 sur GEditBench et 3,77 sur ImgEdit-Bench pour l’édition d’images. En libérant intégralement l’ensemble du code, des poids des modèles et des jeux de données, nous espérons soutenir les futures recherches sur la modélisation multimodale unifiée.
English
Unified multimodal models have recently shown remarkable gains in both
capability and versatility, yet most leading systems are still trained from
scratch and require substantial computational resources. In this paper, we show
that competitive performance can be obtained far more efficiently by
strategically fusing publicly available models specialized for either
generation or understanding. Our key design is to retain the original blocks
while additionally interleaving multimodal self-attention blocks throughout the
networks. This double fusion mechanism (1) effectively enables rich multi-modal
fusion while largely preserving the original strengths of the base models, and
(2) catalyzes synergistic fusion of high-level semantic representations from
the understanding encoder with low-level spatial signals from the generation
encoder. By training with only ~ 35B tokens, this approach achieves strong
results across multiple benchmarks: 0.91 on GenEval for compositional
text-to-image generation, 82.16 on DPG-Bench for complex text-to-image
generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By
fully releasing the entire suite of code, model weights, and datasets, we hope
to support future research on unified multimodal modeling.