InstructBLIP: 命令チューニングによる汎用視覚言語モデルへのアプローチ
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
著者: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
要旨
多様な言語領域タスクを解決できる汎用言語モデルは、事前学習と指示チューニングのパイプラインによって推進されてきました。しかし、視覚入力を追加することで生じるタスク間の差異が大きくなるため、汎用視覚言語モデルの構築は困難です。視覚言語事前学習は広く研究されていますが、視覚言語指示チューニングは比較的未開拓の領域です。本論文では、事前学習済みのBLIP-2モデルに基づいて、視覚言語指示チューニングに関する体系的かつ包括的な研究を行います。26の公開データセットを収集し、指示チューニング形式に変換し、保持内指示チューニングと保持外ゼロショット評価の2つのクラスターに分類します。さらに、指示に応じた有益な特徴を抽出するための重要な手法である指示認識視覚特徴抽出を導入します。結果として得られたInstructBLIPモデルは、13の保持外データセットすべてにおいて、BLIP-2やより大規模なFlamingoを大幅に上回る最先端のゼロショット性能を達成します。また、個々の下流タスクでファインチューニングした場合も最先端の性能を発揮します(例:ScienceQA IMGで90.7%の精度)。さらに、InstructBLIPが同時期のマルチモーダルモデルよりも優れていることを定性的に示します。すべてのInstructBLIPモデルは、https://github.com/salesforce/LAVIS/tree/main/projects/instructblip でオープンソース化されています。
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.