ChatPaper.aiChatPaper

LightBagel: Облегченная структура с двойным слиянием для унифицированного мультимодального понимания и генерации

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

October 27, 2025
Авторы: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie
cs.AI

Аннотация

Унифицированные мультимодальные модели в последнее время демонстрируют значительный прогресс как в возможностях, так и в универсальности, однако большинство ведущих систем по-прежнему обучаются с нуля и требуют существенных вычислительных ресурсов. В данной статье мы показываем, что конкурентоспособные результаты могут быть достигнуты гораздо более эффективно за счет стратегического объединения общедоступных моделей, специализированных либо на генерации, либо на понимании. Наша ключевая идея заключается в сохранении исходных блоков с дополнительным встраиванием мультимодальных блоков самовнимания по всей архитектуре сети. Этот механизм двойного слияния (1) эффективно обеспечивает богатое мультимодальное взаимодействие, в значительной степени сохраняя исходные преимущества базовых моделей, и (2) катализирует синергетическое объединение высокоуровневых семантических представлений от энкодера понимания с низкоуровневыми пространственными сигналами от энкодера генерации. При обучении всего на ~35 млрд токенов данный подход демонстрирует высокие результаты на множестве тестов: 0.91 на GenEval для композиционной генерации изображений по тексту, 82.16 на DPG-Bench для сложной генерации изображений по тексту, 6.06 на GEditBench и 3.77 на ImgEdit-Bench для редактирования изображений. Полностью публикуя весь комплект кода, весов моделей и наборов данных, мы надеемся поддержать будущие исследования в области унифицированного мультимодального моделирования.
English
Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
PDF162December 31, 2025