LightBagel: Un Marco Liviano de Doble Fusión para la Comprensión y Generación Multimodal Unificada
LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
October 27, 2025
Autores: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI
Resumen
Los modelos multimodales unificados han mostrado recientemente avances notables en capacidad y versatilidad, aunque la mayoría de los sistemas líderes siguen entrenándose desde cero y requieren recursos computacionales sustanciales. En este artículo, demostramos que se puede obtener un rendimiento competitivo de manera mucho más eficiente mediante la fusión estratégica de modelos públicos especializados en generación o comprensión. Nuestro diseño clave consiste en conservar los bloques originales mientras se intercalan adicionalmente bloques de autoatención multimodal a lo largo de las redes. Este mecanismo de doble fusión (1) permite efectivamente una rica fusión multimodal preservando en gran medida las fortalezas originales de los modelos base, y (2) cataliza la fusión sinérgica de representaciones semánticas de alto nivel del codificador de comprensión con señales espaciales de bajo nivel del codificador de generación. Al entrenar con solo ~35B tokens, este enfoque logra resultados sólidos en múltiples benchmarks: 0.91 en GenEval para generación composicional de texto a imagen, 82.16 en DPG-Bench para generación compleja de texto a imagen, 6.06 en GEditBench y 3.77 en ImgEdit-Bench para edición de imágenes. Al liberar completamente todo el conjunto de código, pesos del modelo y conjuntos de datos, esperamos apoyar futuras investigaciones sobre modelado multimodal unificado.
English
Unified multimodal models have recently shown remarkable gains in both
capability and versatility, yet most leading systems are still trained from
scratch and require substantial computational resources. In this paper, we show
that competitive performance can be obtained far more efficiently by
strategically fusing publicly available models specialized for either
generation or understanding. Our key design is to retain the original blocks
while additionally interleaving multimodal self-attention blocks throughout the
networks. This double fusion mechanism (1) effectively enables rich multi-modal
fusion while largely preserving the original strengths of the base models, and
(2) catalyzes synergistic fusion of high-level semantic representations from
the understanding encoder with low-level spatial signals from the generation
encoder. By training with only ~ 35B tokens, this approach achieves strong
results across multiple benchmarks: 0.91 on GenEval for compositional
text-to-image generation, 82.16 on DPG-Bench for complex text-to-image
generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By
fully releasing the entire suite of code, model weights, and datasets, we hope
to support future research on unified multimodal modeling.