MiniGPT-v2: 大規模言語モデルを視覚-言語マルチタスク学習の統一インターフェースとして

要旨

大規模言語モデルは、様々な言語関連アプリケーションの汎用インターフェースとしてその驚異的な能力を示してきました。これに着想を得て、我々は画像説明、視覚的質問応答、視覚的グラウンディングなど、多くの視覚言語タスクを完遂するための統一インターフェースの構築を目指しています。課題は、シンプルなマルチモーダル指示を用いて、多様な視覚言語タスクを効果的に実行する単一モデルを使用することです。この目的に向けて、我々はMiniGPT-v2を導入します。これは、様々な視覚言語タスクをより良く扱うための統一インターフェースとして扱えるモデルです。モデルの訓練時に、異なるタスクに対して一意の識別子を使用することを提案します。これらの識別子により、モデルは各タスク指示を容易に区別できるようになり、各タスクの学習効率も向上します。3段階の訓練後、実験結果はMiniGPT-v2が他の視覚言語汎用モデルと比較して、多くの視覚的質問応答および視覚的グラウンディングベンチマークで強力な性能を達成することを示しています。我々のモデルとコードはhttps://minigpt-v2.github.io/で公開されています。

English

Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/

MiniGPT-v2: 大規模言語モデルを視覚-言語マルチタスク学習の統一インターフェースとして

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

要旨

Support