ChatPaper.aiChatPaper

LightBagel: Uma Estrutura Leve com Dupla Fusão para Compreensão e Geração Multimodal Unificadas

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

October 27, 2025
Autores: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI

Resumo

Modelos multimodais unificados têm demonstrado recentemente ganhos notáveis em capacidade e versatilidade, contudo, a maioria dos sistemas líderes ainda é treinada a partir do zero e requer recursos computacionais substanciais. Neste artigo, demonstramos que um desempenho competitivo pode ser obtido de forma muito mais eficiente através da fusão estratégica de modelos publicamente disponíveis, especializados em geração ou compreensão. Nossa principal proposta é manter os blocos originais enquanto adicionalmente intercalamos blocos de autoatenção multimodal por toda a rede. Este mecanismo de dupla fusão (1) permite efetivamente uma rica fusão multimodal enquanto preserva amplamente os pontos fortes originais dos modelos base, e (2) catalisa uma fusão sinérgica de representações semânticas de alto nível do codificador de compreensão com sinais espaciais de baixo nível do codificador de geração. Ao ser treinada com apenas ~35 bilhões de tokens, esta abordagem atinge resultados sólidos em múltiplos benchmarks: 0,91 no GenEval para geração composicional de texto para imagem, 82,16 no DPG-Bench para geração complexa de texto para imagem, 6,06 no GEditBench e 3,77 no ImgEdit-Bench para edição de imagens. Ao liberar integralmente todo o conjunto de código, pesos do modelo e conjuntos de dados, esperamos fomentar pesquisas futuras sobre modelagem multimodal unificada.
English
Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
PDF162December 31, 2025