ARMOR v0.1: Potenziamento del Modello di Comprensione Multimodale Autoregressivo con Generazione Multimodale Intervallata tramite Sinergia Asimmetrica
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Autori: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Abstract
I modelli unificati (UniMs) per la comprensione e la generazione multimodale hanno recentemente ricevuto molta attenzione nell'ambito della visione e del linguaggio. Gli UniMs esistenti sono progettati per apprendere simultaneamente sia le capacità di comprensione che di generazione multimodale, richiedendo risorse computazionali sostanziali e spesso faticano a generare contenuti intercalati di testo e immagini. Presentiamo ARMOR, un framework autoregressivo puro ed efficiente in termini di risorse che raggiunge sia la comprensione che la generazione attraverso il fine-tuning di modelli linguistici multimodali di grandi dimensioni (MLLMs) esistenti. Nello specifico, ARMOR estende gli MLLMs esistenti da tre prospettive: (1) Per l'architettura del modello, viene introdotta un'architettura encoder-decoder asimmetrica con un meccanismo di commutazione in avanti per unificare lo spazio di embedding integrando le modalità testuali e visive, consentendo la generazione naturale di contenuti intercalati testo-immagine con un sovraccarico computazionale minimo. (2) Per i dati di addestramento, viene raccolto un dataset intercalato di alta qualità e accuratamente curato per il fine-tuning degli MLLMs. (3) Per l'algoritmo di addestramento, proponiamo un algoritmo "cosa o come generare" per dotare gli MLLMs esistenti di capacità di generazione multimodale preservando le loro capacità di comprensione multimodale, attraverso tre fasi progressive di addestramento basate sul dataset raccolto. I risultati sperimentali dimostrano che ARMOR aggiorna gli MLLMs esistenti a UniMs con promettenti capacità di generazione di immagini, utilizzando risorse di addestramento limitate. Il nostro codice sarà presto rilasciato su https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.