InstructBLIP : Vers des modèles vision-langage polyvalents grâce au réglage par instructions
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
Auteurs: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
Résumé
Les modèles de langage à usage général capables de résoudre diverses tâches dans le domaine du langage ont émergé grâce au pipeline de pré-entraînement et de réglage par instructions. Cependant, la construction de modèles vision-langage à usage général est plus complexe en raison de la divergence accrue des tâches introduite par l'ajout d'une entrée visuelle. Bien que le pré-entraînement vision-langage ait été largement étudié, le réglage par instructions vision-langage reste relativement peu exploré. Dans cet article, nous menons une étude systématique et approfondie sur le réglage par instructions vision-langage en nous appuyant sur les modèles pré-entraînés BLIP-2. Nous rassemblons une grande variété de 26 ensembles de données publics, les transformons en format de réglage par instructions et les catégorisons en deux groupes pour le réglage par instructions sur données connues et l'évaluation en zéro-shot sur données inconnues. De plus, nous introduisons l'extraction de caractéristiques visuelles sensibles aux instructions, une méthode cruciale qui permet au modèle d'extraire des caractéristiques informatives adaptées à l'instruction donnée. Les modèles InstructBLIP qui en résultent atteignent des performances de pointe en zéro-shot sur les 13 ensembles de données inconnus, surpassant largement BLIP-2 et le modèle plus grand Flamingo. Nos modèles obtiennent également des performances de pointe lorsqu'ils sont affinés sur des tâches en aval individuelles (par exemple, 90,7 % de précision sur ScienceQA IMG). Par ailleurs, nous démontrons qualitativement les avantages d'InstructBLIP par rapport aux modèles multimodaux concurrents. Tous les modèles InstructBLIP ont été rendus open-source à l'adresse suivante : https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.