InstructBLIP: Op weg naar algemene visie-taalmodellen met instructieafstemming

Samenvatting

Algemene taalmodelen die verschillende taken in het taaldomein kunnen oplossen, zijn ontstaan dankzij de pipeline van vooraf trainen en instructie-afstemming. Het bouwen van algemene visueel-taalmodelen is echter uitdagend vanwege de grotere taakdiscrepantie die wordt geïntroduceerd door de extra visuele input. Hoewel visueel-taal vooraf trainen uitgebreid is bestudeerd, blijft visueel-taal instructie-afstemming relatief onderbelicht. In dit artikel voeren we een systematisch en uitgebreid onderzoek uit naar visueel-taal instructie-afstemming gebaseerd op de vooraf getrainde BLIP-2-modellen. We verzamelen een breed scala aan 26 publiekelijk beschikbare datasets, transformeren deze naar het instructie-afstemmingsformaat en categoriseren ze in twee clusters voor ingebedde instructie-afstemming en uitgehouden zero-shot evaluatie. Daarnaast introduceren we instructiebewuste visuele kenmerkextractie, een cruciale methode die het model in staat stelt informatieve kenmerken te extraheren die zijn afgestemd op de gegeven instructie. De resulterende InstructBLIP-modellen behalen state-of-the-art zero-shot prestaties op alle 13 uitgehouden datasets, waarbij ze BLIP-2 en het grotere Flamingo aanzienlijk overtreffen. Onze modellen leiden ook tot state-of-the-art prestaties wanneer ze worden afgestemd op individuele downstream taken (bijvoorbeeld 90,7% nauwkeurigheid op ScienceQA IMG). Bovendien tonen we kwalitatief de voordelen van InstructBLIP aan ten opzichte van gelijktijdige multimodale modellen. Alle InstructBLIP-modellen zijn open-source gemaakt op https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

English

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

InstructBLIP: Op weg naar algemene visie-taalmodellen met instructieafstemming

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Samenvatting

Support