LightBagel: Een lichtgewicht, dubbel-fusieraamwerk voor verenigde multimodale interpretatie en generatie
LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
October 27, 2025
Auteurs: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI
Samenvatting
Unified multimodale modellen hebben recentelijk opmerkelijke vooruitgang geboekt in zowel capaciteit als veelzijdigheid, maar de meeste toonaangevende systemen worden nog steeds vanaf nul getraind en vereisen aanzienlijke rekenbronnen. In dit artikel tonen we aan dat competitieve prestaties veel efficiënter kunnen worden verkregen door strategisch gebruik te maken van publiek beschikbare modellen die gespecialiseerd zijn in generatie of begrip. Onze belangrijkste ontwerpkeuze is het behouden van de oorspronkelijke blokken, terwijl er tevens multimodale self-attention blokken door de netwerken heen worden verweven. Dit dubbele fusiemechanisme (1) maakt effectief rijke multimodale fusie mogelijk terwijl het grotendeels de oorspronkelijke sterke punten van de basismodellen behoudt, en (2) katalyseert een synergetische fusie van hoogwaardige semantische representaties van de begrips-encoder met laagwaardige ruimtelijke signalen van de generatie-encoder. Door training met slechts ~35B tokens bereikt deze aanpak sterke resultaten op meerdere benchmarks: 0.91 op GenEval voor compositionele tekst-naar-beeld generatie, 82.16 op DPG-Bench voor complexe tekst-naar-beeld generatie, 6.06 op GEditBench, en 3.77 op ImgEdit-Bench voor beeldbewerking. Door de volledige set code, modelgewichten en datasets vrij te geven, hopen we toekomstig onderzoek naar unified multimodale modellering te ondersteunen.
English
Unified multimodal models have recently shown remarkable gains in both
capability and versatility, yet most leading systems are still trained from
scratch and require substantial computational resources. In this paper, we show
that competitive performance can be obtained far more efficiently by
strategically fusing publicly available models specialized for either
generation or understanding. Our key design is to retain the original blocks
while additionally interleaving multimodal self-attention blocks throughout the
networks. This double fusion mechanism (1) effectively enables rich multi-modal
fusion while largely preserving the original strengths of the base models, and
(2) catalyzes synergistic fusion of high-level semantic representations from
the understanding encoder with low-level spatial signals from the generation
encoder. By training with only ~ 35B tokens, this approach achieves strong
results across multiple benchmarks: 0.91 on GenEval for compositional
text-to-image generation, 82.16 on DPG-Bench for complex text-to-image
generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By
fully releasing the entire suite of code, model weights, and datasets, we hope
to support future research on unified multimodal modeling.