ChatPaper.aiChatPaper

LightBagel: Un framework leggero a doppia fusione per la comprensione e generazione multimodale unificata

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

October 27, 2025
Autori: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI

Abstract

I modelli multimodali unificati hanno recentemente mostrato progressi notevoli sia nelle capacità che nella versatilità, tuttavia la maggior parte dei sistemi all'avanguardia viene ancora addestrata da zero e richiede risorse computazionali sostanziali. In questo articolo, dimostriamo che prestazioni competitive possono essere ottenute in modo molto più efficiente fondendo strategicamente modelli pubblicamente disponibili specializzati per la generazione o la comprensione. Il nostro progetto chiave consiste nel conservare i blocchi originali aggiungendo contemporaneamente blocchi di self-attention multimodale intercalati nelle reti. Questo meccanismo di doppia fusione (1) abilita efficacemente una ricca fusione multimodale preservando in larga misura i punti di forza originali dei modelli base, e (2) catalizza una fusione sinergica delle rappresentazioni semantiche di alto livello dall'encoder di comprensione con i segnali spaziali di basso livello dall'encoder di generazione. Addestrando con soli ~35 miliardi di token, questo approccio ottiene risultati solidi su molteplici benchmark: 0.91 su GenEval per la generazione compositiva testo-immagine, 82.16 su DPG-Bench per la generazione complessa testo-immagine, 6.06 su GEditBench e 3.77 su ImgEdit-Bench per l'editing di immagini. Rilasciando integralmente l'intera suite di codice, pesi dei modelli e dataset, speriamo di supportare la ricerca futura sulla modellazione multimodale unificata.
English
Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
PDF162December 3, 2025