生成型マルチモーダルモデルはインコンテキスト学習者である
Generative Multimodal Models are In-Context Learners
December 20, 2023
著者: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
要旨
人間が文脈内でマルチモーダルタスクを容易に解決する能力(つまり、わずかなデモンストレーションや簡単な指示だけで行う能力)は、現在のマルチモーダルシステムが模倣するのに大きく苦労している点です。本研究では、大規模マルチモーダルモデルのタスク非依存的な文脈内学習能力が、効果的なスケールアップによって大幅に向上することを実証します。私たちは、370億パラメータを持つ生成型マルチモーダルモデル「Emu2」を紹介します。このモデルは、大規模なマルチモーダルシーケンスを統一された自己回帰目的でトレーニングされています。Emu2は、視覚的プロンプティングやオブジェクトに基づいた生成など、即興的な推論を必要とするタスクを解決するまでに至る、強力なマルチモーダル文脈内学習能力を示します。このモデルは、数ショット設定における複数のマルチモーダル理解タスクで新記録を樹立しました。特定の指示に従うように指示チューニングを行うと、Emu2はさらに、大規模マルチモーダルモデル向けの質問応答ベンチマークやオープンエンドの主題駆動型生成といった難しいタスクにおいて、新たな最先端の性能を達成します。これらの成果は、Emu2が幅広いマルチモーダルタスクの基盤モデルおよび汎用インターフェースとして機能し得ることを示しています。今後の研究を促進するため、コードとモデルは公開されています。
English
The human ability to easily solve multimodal tasks in context (i.e., with
only a few demonstrations or simple instructions), is what current multimodal
systems have largely struggled to imitate. In this work, we demonstrate that
the task-agnostic in-context learning capabilities of large multimodal models
can be significantly enhanced by effective scaling-up. We introduce Emu2, a
generative multimodal model with 37 billion parameters, trained on large-scale
multimodal sequences with a unified autoregressive objective. Emu2 exhibits
strong multimodal in-context learning abilities, even emerging to solve tasks
that require on-the-fly reasoning, such as visual prompting and object-grounded
generation. The model sets a new record on multiple multimodal understanding
tasks in few-shot settings. When instruction-tuned to follow specific
instructions, Emu2 further achieves new state-of-the-art on challenging tasks
such as question answering benchmarks for large multimodal models and
open-ended subject-driven generation. These achievements demonstrate that Emu2
can serve as a base model and general-purpose interface for a wide range of
multimodal tasks. Code and models are publicly available to facilitate future
research.