ARMOR v0.1: Versterking van het Autoregressieve Multimodale Begripsmodel met Geïnterleefde Multimodale Generatie via Asymmetrische Synergie
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Auteurs: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Samenvatting
Unified models (UniMs) voor multimodale interpretatie en generatie hebben recentelijk veel aandacht gekregen op het gebied van visie en taal. Bestaande UniMs zijn ontworpen om zowel multimodale interpretatie- als generatiecapaciteiten tegelijkertijd te leren, wat aanzienlijke rekenkracht vereist, en hebben vaak moeite met het genereren van afwisselende tekst en afbeeldingen. Wij presenteren ARMOR, een resource-efficiënt en puur autoregressief framework dat zowel interpretatie als generatie bereikt door bestaande multimodale grote taalmodellen (MLLMs) te fine-tunen. Specifiek breidt ARMOR bestaande MLLMs uit vanuit drie perspectieven: (1) Voor de modelarchitectuur wordt een asymmetrische encoder-decoder-architectuur met een forward-switching-mechanisme geïntroduceerd om de embeddingruimte te unificeren, waarbij tekstuele en visuele modaliteiten worden geïntegreerd om natuurlijke afwisselende tekst-afbeelding-generatie mogelijk te maken met minimale rekenkracht. (2) Voor de trainingsdata wordt een zorgvuldig samengestelde, hoogwaardige dataset met afwisselende inhoud verzameld voor het fine-tunen van MLLMs. (3) Voor het trainingsalgoritme stellen we een "wat of hoe te genereren"-algoritme voor om bestaande MLLMs te voorzien van multimodale generatiecapaciteiten, terwijl hun multimodale interpretatiecapaciteiten behouden blijven, via drie progressieve trainingsfasen gebaseerd op de verzamelde dataset. Experimentele resultaten tonen aan dat ARMOR bestaande MLLMs opwaardeert naar UniMs met veelbelovende afbeeldingsgeneratiecapaciteiten, met beperkte trainingsresources. Onze code zal binnenkort worden vrijgegeven op https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary