ARMOR v0.1: Potenciando el Modelo de Comprensión Multimodal Autoregresivo con Generación Multimodal Entrelazada mediante Sinergía Asimétrica
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Autores: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Resumen
Los modelos unificados (UniMs) para la comprensión y generación multimodal han recibido recientemente mucha atención en el área de visión y lenguaje. Los UniMs existentes están diseñados para aprender simultáneamente capacidades de comprensión y generación multimodal, lo que requiere recursos computacionales sustanciales y, a menudo, tienen dificultades para generar texto e imágenes intercalados. Presentamos ARMOR, un marco autoregresivo puro y eficiente en recursos que logra tanto la comprensión como la generación mediante el ajuste fino de modelos de lenguaje multimodal de gran escala (MLLMs) existentes. Específicamente, ARMOR extiende los MLLMs existentes desde tres perspectivas: (1) Para la arquitectura del modelo, se introduce una arquitectura codificador-decodificador asimétrica con un mecanismo de conmutación hacia adelante para unificar el espacio de incrustación que integra las modalidades textual y visual, permitiendo la generación natural de texto e imágenes intercalados con un mínimo sobrecargo computacional. (2) Para los datos de entrenamiento, se recopila un conjunto de datos intercalados de alta calidad y cuidadosamente seleccionado para el ajuste fino de los MLLMs. (3) Para el algoritmo de entrenamiento, proponemos un algoritmo de "qué o cómo generar" para dotar a los MLLMs existentes de capacidades de generación multimodal mientras se preservan sus capacidades de comprensión multimodal, a través de tres etapas progresivas de entrenamiento basadas en el conjunto de datos recopilado. Los resultados experimentales demuestran que ARMOR actualiza los MLLMs existentes a UniMs con prometedoras capacidades de generación de imágenes, utilizando recursos de entrenamiento limitados. Nuestro código se lanzará pronto en https://armor.github.io.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary