ChatPaper.aiChatPaper

ARMOR v0.1: Versterking van het Autoregressieve Multimodale Begripsmodel met Geïnterleefde Multimodale Generatie via Asymmetrische Synergie

ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

March 9, 2025
Auteurs: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI

Samenvatting

Unified models (UniMs) voor multimodale interpretatie en generatie hebben recentelijk veel aandacht gekregen op het gebied van visie en taal. Bestaande UniMs zijn ontworpen om zowel multimodale interpretatie- als generatiecapaciteiten tegelijkertijd te leren, wat aanzienlijke rekenkracht vereist, en hebben vaak moeite met het genereren van afwisselende tekst en afbeeldingen. Wij presenteren ARMOR, een resource-efficiënt en puur autoregressief framework dat zowel interpretatie als generatie bereikt door bestaande multimodale grote taalmodellen (MLLMs) te fine-tunen. Specifiek breidt ARMOR bestaande MLLMs uit vanuit drie perspectieven: (1) Voor de modelarchitectuur wordt een asymmetrische encoder-decoder-architectuur met een forward-switching-mechanisme geïntroduceerd om de embeddingruimte te unificeren, waarbij tekstuele en visuele modaliteiten worden geïntegreerd om natuurlijke afwisselende tekst-afbeelding-generatie mogelijk te maken met minimale rekenkracht. (2) Voor de trainingsdata wordt een zorgvuldig samengestelde, hoogwaardige dataset met afwisselende inhoud verzameld voor het fine-tunen van MLLMs. (3) Voor het trainingsalgoritme stellen we een "wat of hoe te genereren"-algoritme voor om bestaande MLLMs te voorzien van multimodale generatiecapaciteiten, terwijl hun multimodale interpretatiecapaciteiten behouden blijven, via drie progressieve trainingsfasen gebaseerd op de verzamelde dataset. Experimentele resultaten tonen aan dat ARMOR bestaande MLLMs opwaardeert naar UniMs met veelbelovende afbeeldingsgeneratiecapaciteiten, met beperkte trainingsresources. Onze code zal binnenkort worden vrijgegeven op https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a ``what or how to generate" algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://armor.github.io.

Summary

AI-Generated Summary

PDF82March 17, 2025