InstructBLIP : Vers des modèles vision-langage polyvalents grâce au réglage par instructions

Résumé

Les modèles de langage à usage général capables de résoudre diverses tâches dans le domaine du langage ont émergé grâce au pipeline de pré-entraînement et de réglage par instructions. Cependant, la construction de modèles vision-langage à usage général est plus complexe en raison de la divergence accrue des tâches introduite par l'ajout d'une entrée visuelle. Bien que le pré-entraînement vision-langage ait été largement étudié, le réglage par instructions vision-langage reste relativement peu exploré. Dans cet article, nous menons une étude systématique et approfondie sur le réglage par instructions vision-langage en nous appuyant sur les modèles pré-entraînés BLIP-2. Nous rassemblons une grande variété de 26 ensembles de données publics, les transformons en format de réglage par instructions et les catégorisons en deux groupes pour le réglage par instructions sur données connues et l'évaluation en zéro-shot sur données inconnues. De plus, nous introduisons l'extraction de caractéristiques visuelles sensibles aux instructions, une méthode cruciale qui permet au modèle d'extraire des caractéristiques informatives adaptées à l'instruction donnée. Les modèles InstructBLIP qui en résultent atteignent des performances de pointe en zéro-shot sur les 13 ensembles de données inconnus, surpassant largement BLIP-2 et le modèle plus grand Flamingo. Nos modèles obtiennent également des performances de pointe lorsqu'ils sont affinés sur des tâches en aval individuelles (par exemple, 90,7 % de précision sur ScienceQA IMG). Par ailleurs, nous démontrons qualitativement les avantages d'InstructBLIP par rapport aux modèles multimodaux concurrents. Tous les modèles InstructBLIP ont été rendus open-source à l'adresse suivante : https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

English

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

InstructBLIP : Vers des modèles vision-langage polyvalents grâce au réglage par instructions

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Résumé

Support