ARMOR v0.1 : Renforcer le modèle de compréhension multimodale autorégressif avec une génération multimodale entrelacée via une synergie asymétrique
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Auteurs: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Résumé
Les modèles unifiés (UniMs) pour la compréhension et la génération multimodales ont récemment suscité un intérêt considérable dans le domaine de la vision et du langage. Les UniMs existants sont conçus pour apprendre simultanément les capacités de compréhension et de génération multimodales, ce qui exige des ressources computationnelles substantielles et rencontre souvent des difficultés à générer des séquences entrelacées de texte et d'images. Nous présentons ARMOR, un cadre purement autorégressif et économe en ressources, qui réalise à la fois la compréhension et la génération en affinant des modèles de langage multimodaux de grande taille (MLLMs) existants. Plus précisément, ARMOR étend les MLLMs existants selon trois perspectives : (1) Pour l'architecture du modèle, une architecture encodeur-décodeur asymétrique avec un mécanisme de commutation avant est introduite pour unifier l'espace d'embedding intégrant les modalités textuelles et visuelles, permettant ainsi une génération naturelle de séquences entrelacées texte-image avec un surcoût computationnel minimal. (2) Pour les données d'entraînement, un ensemble de données entrelacées de haute qualité, soigneusement sélectionné, est collecté pour affiner les MLLMs. (3) Pour l'algorithme d'entraînement, nous proposons un algorithme « quoi ou comment générer » pour doter les MLLMs existants de capacités de génération multimodale tout en préservant leurs capacités de compréhension multimodale, à travers trois étapes d'entraînement progressives basées sur l'ensemble de données collecté. Les résultats expérimentaux démontrent qu'ARMOR améliore les MLLMs existants en UniMs avec des capacités prometteuses de génération d'images, en utilisant des ressources d'entraînement limitées. Notre code sera bientôt disponible sur https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary