ARMOR v0.1: Potencializando o Modelo de Compreensão Multimodal Autoregressivo com Geração Multimodal Intercalada via Sinergia Assimétrica

Resumo

Modelos unificados (UniMs) para compreensão e geração multimodal têm recebido muita atenção recentemente na área de visão e linguagem. Os UniMs existentes são projetados para aprender simultaneamente capacidades de compreensão e geração multimodal, demandando recursos computacionais substanciais e frequentemente enfrentam dificuldades para gerar texto e imagens intercalados. Apresentamos o ARMOR, uma estrutura autoregressiva pura e eficiente em recursos que alcança tanto a compreensão quanto a geração por meio do ajuste fino de modelos de linguagem multimodal de grande escala (MLLMs). Especificamente, o ARMOR estende os MLLMs existentes a partir de três perspectivas: (1) Para a arquitetura do modelo, uma arquitetura codificador-decodificador assimétrica com um mecanismo de comutação direta é introduzida para unificar o espaço de incorporação, integrando modalidades textuais e visuais, permitindo a geração natural de texto e imagens intercalados com sobrecarga computacional mínima. (2) Para os dados de treinamento, um conjunto de dados intercalados de alta qualidade e meticulosamente curado é coletado para ajustar os MLLMs. (3) Para o algoritmo de treinamento, propomos um algoritmo "o que ou como gerar" para capacitar os MLLMs existentes com habilidades de geração multimodal, preservando suas capacidades de compreensão multimodal, por meio de três estágios progressivos de treinamento baseados no conjunto de dados coletado. Resultados experimentais demonstram que o ARMOR atualiza os MLLMs existentes para UniMs com promissores recursos de geração de imagens, utilizando recursos de treinamento limitados. Nosso código será lançado em breve em https://armor.github.io.

English

Unified models (UniMs) for multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a ``what or how to generate" algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://armor.github.io.

ARMOR v0.1: Potencializando o Modelo de Compreensão Multimodal Autoregressivo com Geração Multimodal Intercalada via Sinergia Assimétrica

ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Resumo

Support