ANOLE: 인터리브 이미지-텍스트 생성을 위한 오픈 소스, 자기회귀적, 네이티브 대형 멀티모달 모델
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
July 8, 2024
저자: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI
초록
기존의 오픈소스 대형 멀티모달 모델(LMMs)은 몇 가지 한계점을 가지고 있었습니다: (1) 시각적 표현과 사전 학습된 대형 언어 모델(LLMs)을 정렬하기 위해 어댑터가 필요한 등, 네이티브 통합이 부족했으며; (2) 많은 모델이 단일 모달 생성에 제한되어 있었고; (3) 일부는 멀티모달 생성을 지원하지만, 시각적 모델링 및 생성을 위해 별도의 디퓨전 모델에 의존했습니다. 이러한 한계를 극복하기 위해, 우리는 인터리브된 이미지-텍스트 생성을 위한 오픈소스, 자기회귀적, 네이티브 대형 멀티모달 모델인 Anole을 제안합니다. 우리는 Meta AI의 Chameleon을 기반으로 Anole을 구축했으며, 데이터 효율적이고 파라미터 효율적인 혁신적인 파인튜닝 전략을 채택했습니다. Anole은 고품질의 일관된 멀티모달 생성 능력을 보여줍니다. 우리는 모델, 훈련 프레임워크, 그리고 인스트럭션 튜닝 데이터를 오픈소스로 공개했습니다.
English
Previous open-source large multimodal models (LMMs) have faced several
limitations: (1) they often lack native integration, requiring adapters to
align visual representations with pre-trained large language models (LLMs); (2)
many are restricted to single-modal generation; (3) while some support
multimodal generation, they rely on separate diffusion models for visual
modeling and generation. To mitigate these limitations, we present Anole, an
open, autoregressive, native large multimodal model for interleaved image-text
generation. We build Anole from Meta AI's Chameleon, adopting an innovative
fine-tuning strategy that is both data-efficient and parameter-efficient. Anole
demonstrates high-quality, coherent multimodal generation capabilities. We have
open-sourced our model, training framework, and instruction tuning data.Summary
AI-Generated Summary