InstructBLIP: Op weg naar algemene visie-taalmodellen met instructieafstemming
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
Auteurs: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
Samenvatting
Algemene taalmodelen die verschillende taken in het taaldomein kunnen oplossen,
zijn ontstaan dankzij de pipeline van vooraf trainen en instructie-afstemming.
Het bouwen van algemene visueel-taalmodelen is echter uitdagend vanwege
de grotere taakdiscrepantie die wordt geïntroduceerd door de extra visuele input.
Hoewel visueel-taal vooraf trainen uitgebreid is bestudeerd, blijft visueel-taal
instructie-afstemming relatief onderbelicht. In dit artikel voeren we een
systematisch en uitgebreid onderzoek uit naar visueel-taal instructie-afstemming
gebaseerd op de vooraf getrainde BLIP-2-modellen. We verzamelen een breed scala
aan 26 publiekelijk beschikbare datasets, transformeren deze naar het instructie-afstemmingsformaat
en categoriseren ze in twee clusters voor ingebedde instructie-afstemming en
uitgehouden zero-shot evaluatie. Daarnaast introduceren we instructiebewuste
visuele kenmerkextractie, een cruciale methode die het model in staat stelt
informatieve kenmerken te extraheren die zijn afgestemd op de gegeven instructie.
De resulterende InstructBLIP-modellen behalen state-of-the-art zero-shot prestaties
op alle 13 uitgehouden datasets, waarbij ze BLIP-2 en het grotere Flamingo aanzienlijk
overtreffen. Onze modellen leiden ook tot state-of-the-art prestaties wanneer ze
worden afgestemd op individuele downstream taken (bijvoorbeeld 90,7% nauwkeurigheid
op ScienceQA IMG). Bovendien tonen we kwalitatief de voordelen van InstructBLIP aan
ten opzichte van gelijktijdige multimodale modellen. Alle InstructBLIP-modellen
zijn open-source gemaakt op https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.