ARMOR v0.1: 비대칭적 시너지를 통한 인터리브 멀티모달 생성으로 자율회귀 멀티모달 이해 모델 강화
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
저자: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
초록
최근 비전과 언어 분야에서 다중모달 이해와 생성을 위한 통합 모델(UniMs)이 많은 관심을 받고 있습니다. 기존의 UniMs는 다중모달 이해와 생성 능력을 동시에 학습하도록 설계되어 상당한 계산 자원을 요구하며, 텍스트와 이미지가 교차된 형태의 생성을 어려워하는 경우가 많습니다. 우리는 ARMOR를 제안합니다. ARMOR는 기존의 다중모달 대형 언어 모델(MLLMs)을 미세 조정하여 이해와 생성 모두를 달성하는 자원 효율적이고 순수한 자기회귀 프레임워크입니다. 구체적으로, ARMOR는 세 가지 관점에서 기존 MLLMs를 확장합니다: (1) 모델 아키텍처 측면에서, 텍스트와 시각적 양식을 통합한 임베딩 공간을 통일하여 자연스러운 텍스트-이미지 교차 생성을 가능하게 하는 전환 메커니즘을 갖춘 비대칭 인코더-디코더 아키텍처를 도입합니다. 이는 최소한의 계산 오버헤드로 구현됩니다. (2) 훈련 데이터 측면에서, MLLMs를 미세 조정하기 위해 신중하게 선별된 고품질의 교차 데이터셋을 수집합니다. (3) 훈련 알고리즘 측면에서, 우리는 "무엇을 또는 어떻게 생성할지" 알고리즘을 제안하여, 수집된 데이터셋을 기반으로 세 단계의 점진적 훈련 단계를 통해 기존 MLLMs에 다중모달 생성 능력을 부여하면서도 다중모달 이해 능력을 보존합니다. 실험 결과는 ARMOR가 제한된 훈련 자원을 사용하여 기존 MLLMs를 유망한 이미지 생성 능력을 갖춘 UniMs로 업그레이드함을 보여줍니다. 우리의 코드는 곧 https://armor.github.io에서 공개될 예정입니다.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary