ARMOR v0.1: Расширение возможностей авторегрессивной модели мультимодального понимания с чередующейся мультимодальной генерацией через асимметричный синергизм
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Авторы: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Аннотация
Унифицированные модели (UniMs) для мультимодального понимания и генерации в последнее время привлекают значительное внимание в области обработки зрения и языка. Существующие UniMs разработаны для одновременного обучения как способностям мультимодального понимания, так и генерации, что требует значительных вычислительных ресурсов и часто сталкивается с трудностями при генерации чередующегося текста и изображений. Мы представляем ARMOR, ресурсоэффективную и чисто авторегрессионную структуру, которая достигает как понимания, так и генерации путем тонкой настройки существующих мультимодальных больших языковых моделей (MLLMs). В частности, ARMOR расширяет существующие MLLMs с трех перспектив: (1) Для архитектуры модели вводится асимметричная архитектура кодировщика-декодера с механизмом переключения вперед, чтобы унифицировать пространство встраивания, интегрирующее текстовые и визуальные модальности, что позволяет естественную генерацию чередующегося текста и изображений с минимальными вычислительными затратами. (2) Для обучающих данных собирается тщательно отобранный, высококачественный набор данных с чередующимися текстами и изображениями для тонкой настройки MLLMs. (3) Для алгоритма обучения мы предлагаем алгоритм «что или как генерировать», который наделяет существующие MLLMs способностями мультимодальной генерации, сохраняя при этом их способности мультимодального понимания, через три прогрессивных этапа обучения на основе собранного набора данных. Экспериментальные результаты демонстрируют, что ARMOR улучшает существующие MLLMs до UniMs с перспективными возможностями генерации изображений, используя ограниченные ресурсы для обучения. Наш код будет вскоре опубликован на https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary