ARMOR v0.1: Potencializando o Modelo de Compreensão Multimodal Autoregressivo com Geração Multimodal Intercalada via Sinergia Assimétrica
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Autores: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Resumo
Modelos unificados (UniMs) para compreensão e geração multimodal têm recebido muita atenção recentemente na área de visão e linguagem. Os UniMs existentes são projetados para aprender simultaneamente capacidades de compreensão e geração multimodal, demandando recursos computacionais substanciais e frequentemente enfrentam dificuldades para gerar texto e imagens intercalados. Apresentamos o ARMOR, uma estrutura autoregressiva pura e eficiente em recursos que alcança tanto a compreensão quanto a geração por meio do ajuste fino de modelos de linguagem multimodal de grande escala (MLLMs). Especificamente, o ARMOR estende os MLLMs existentes a partir de três perspectivas: (1) Para a arquitetura do modelo, uma arquitetura codificador-decodificador assimétrica com um mecanismo de comutação direta é introduzida para unificar o espaço de incorporação, integrando modalidades textuais e visuais, permitindo a geração natural de texto e imagens intercalados com sobrecarga computacional mínima. (2) Para os dados de treinamento, um conjunto de dados intercalados de alta qualidade e meticulosamente curado é coletado para ajustar os MLLMs. (3) Para o algoritmo de treinamento, propomos um algoritmo "o que ou como gerar" para capacitar os MLLMs existentes com habilidades de geração multimodal, preservando suas capacidades de compreensão multimodal, por meio de três estágios progressivos de treinamento baseados no conjunto de dados coletado. Resultados experimentais demonstram que o ARMOR atualiza os MLLMs existentes para UniMs com promissores recursos de geração de imagens, utilizando recursos de treinamento limitados. Nosso código será lançado em breve em https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary