ChatPaper.aiChatPaper

ANOLE: 画像とテキストのインタリーブ生成のためのオープンで自己回帰型のネイティブ大規模マルチモーダルモデル

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

July 8, 2024
著者: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI

要旨

従来のオープンソース大規模マルチモーダルモデル(LMM)にはいくつかの制約がありました:(1)視覚表現と事前学習済み大規模言語モデル(LLM)を整合させるためにアダプターが必要で、ネイティブな統合が欠如していること、(2)単一モーダルの生成に限定されていること、(3)マルチモーダル生成をサポートする場合でも、視覚モデリングと生成に別個の拡散モデルに依存していることです。これらの制約を緩和するため、我々はAnoleを提案します。Anoleは、画像とテキストの交互生成のためのオープンで自己回帰型のネイティブ大規模マルチモーダルモデルです。AnoleはMeta AIのChameleonを基盤として構築し、データ効率とパラメータ効率の両面で革新的なファインチューニング戦略を採用しています。Anoleは高品質で一貫性のあるマルチモーダル生成能力を実証しています。我々はモデル、トレーニングフレームワーク、および指示チューニングデータをオープンソースとして公開しました。
English
Previous open-source large multimodal models (LMMs) have faced several limitations: (1) they often lack native integration, requiring adapters to align visual representations with pre-trained large language models (LLMs); (2) many are restricted to single-modal generation; (3) while some support multimodal generation, they rely on separate diffusion models for visual modeling and generation. To mitigate these limitations, we present Anole, an open, autoregressive, native large multimodal model for interleaved image-text generation. We build Anole from Meta AI's Chameleon, adopting an innovative fine-tuning strategy that is both data-efficient and parameter-efficient. Anole demonstrates high-quality, coherent multimodal generation capabilities. We have open-sourced our model, training framework, and instruction tuning data.

Summary

AI-Generated Summary

PDF234November 28, 2024