ChatPaper.aiChatPaper

LightBagel: Ein leichtgewichtiger Doppelfusionsrahmen für einheitliches multimodales Verstehen und Erzeugen

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

October 27, 2025
papers.authors: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI

papers.abstract

Einheitliche multimodale Modelle haben in letzter Zeit bemerkenswerte Fortschritte in Bezug auf Fähigkeiten und Vielseitigkeit gezeigt, doch die meisten führenden Systeme werden immer noch von Grund auf trainiert und erfordern erhebliche Rechenressourcen. In diesem Artikel zeigen wir, dass eine wettbewerbsfähige Leistung weitaus effizienter erzielt werden kann, indem öffentlich verfügbare Modelle, die entweder auf Generierung oder Verständnis spezialisiert sind, strategisch fusioniert werden. Unser zentrales Konzept besteht darin, die ursprünglichen Blöcke beizubehalten und zusätzlich multimodale Self-Attention-Blöcke netzwerkweit zwischenzuschalten. Dieser Doppelfusionsmechanismus (1) ermöglicht effektiv eine reichhaltige multimodale Fusion, während weitgehend die ursprünglichen Stärken der Basismodelle erhalten bleiben, und (2) katalysiert die synergetische Fusion von hochleveligen semantischen Repräsentationen aus dem Verständnis-Encoder mit low-level räumlichen Signalen aus dem Generierungs-Encoder. Durch Training mit nur ~35B Tokens erzielt dieser Ansatz starke Ergebnisse über mehrere Benchmarks hinweg: 0,91 auf GenEval für kompositionelle Text-zu-Bild-Generierung, 82,16 auf DPG-Bench für komplexe Text-zu-Bild-Generierung, 6,06 auf GEditBench und 3,77 auf ImgEdit-Bench für Bildbearbeitung. Indem wir den gesamten Code, die Modellgewichte und Datensätze vollständig veröffentlichen, hoffen wir, zukünftige Forschung zur einheitlichen multimodalen Modellierung zu unterstützen.
English
Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
PDF162December 31, 2025