MIMIC-IT: マルチモーダル・インコンテキスト・インストラクションチューニング
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
June 8, 2023
著者: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
要旨
高品質な指示と応答は、インタラクティブな自然言語タスクにおける大規模言語モデルのゼロショット性能にとって不可欠である。複雑な視覚シーンを含むインタラクティブな視覚言語タスクにおいては、多様で創造的な指示-応答ペアを大量に用意することが視覚言語モデル(VLM)のチューニングに必要である。しかしながら、現在利用可能な視覚言語指示-応答ペアの量、多様性、創造性は限られており、インタラクティブなVLMの汎化に課題を残している。本稿では、MultI-Modal In-Context Instruction Tuning(MIMIC-IT)というデータセットを紹介する。このデータセットは280万のマルチモーダルな指示-応答ペアを含み、そのうち220万のユニークな指示は画像や動画から導出されている。各ペアはマルチモーダルな文脈情報を伴い、VLMの知覚、推論、計画能力を強化することを目的とした会話的文脈を形成する。指示-応答の収集プロセスはSyphusと呼ばれ、人間の専門知識とGPTの能力を組み合わせた自動アノテーションパイプラインを用いてスケールアップされている。MIMIC-ITデータセットを使用して、Otterという大規模なVLMを訓練した。視覚言語ベンチマークで実施された広範な評価に基づき、Otterはマルチモーダルな知覚、推論、文脈内学習において顕著な熟練度を示すことが観察された。人間による評価では、ユーザーの意図に効果的に沿っていることが明らかになった。我々はMIMIC-ITデータセット、指示-応答収集パイプライン、ベンチマーク、およびOtterモデルを公開する。
English
High-quality instructions and responses are essential for the zero-shot
performance of large language models on interactive natural language tasks. For
interactive vision-language tasks involving intricate visual scenes, a large
quantity of diverse and creative instruction-response pairs should be
imperative to tune vision-language models (VLMs). Nevertheless, the current
availability of vision-language instruction-response pairs in terms of
quantity, diversity, and creativity remains limited, posing challenges to the
generalization of interactive VLMs. Here we present MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal
instruction-response pairs, with 2.2 million unique instructions derived from
images and videos. Each pair is accompanied by multi-modal in-context
information, forming conversational contexts aimed at empowering VLMs in
perception, reasoning, and planning. The instruction-response collection
process, dubbed as Syphus, is scaled using an automatic annotation pipeline
that combines human expertise with GPT's capabilities. Using the MIMIC-IT
dataset, we train a large VLM named Otter. Based on extensive evaluations
conducted on vision-language benchmarks, it has been observed that Otter
demonstrates remarkable proficiency in multi-modal perception, reasoning, and
in-context learning. Human evaluation reveals it effectively aligns with the
user's intentions. We release the MIMIC-IT dataset, instruction-response
collection pipeline, benchmarks, and the Otter model.