InstructBLIP: Auf dem Weg zu allgemeinen Vision-Sprache-Modellen durch Instruction Tuning
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
Autoren: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
Zusammenfassung
Allgemeine Sprachmodelle, die verschiedene Aufgaben im Sprachbereich lösen können, sind durch die Pipeline aus Vorabtraining und Instruktionsfeinabstimmung entstanden. Der Aufbau allgemeiner visuell-sprachlicher Modelle ist jedoch aufgrund der erhöhten Aufgabenabweichung, die durch die zusätzliche visuelle Eingabe entsteht, eine Herausforderung. Obwohl das Vorabtraining für visuell-sprachliche Modelle weitgehend erforscht wurde, bleibt die Instruktionsfeinabstimmung für visuell-sprachliche Modelle relativ wenig untersucht. In diesem Papier führen wir eine systematische und umfassende Studie zur Instruktionsfeinabstimmung für visuell-sprachliche Modelle basierend auf den vortrainierten BLIP-2-Modellen durch. Wir sammeln eine Vielzahl von 26 öffentlich verfügbaren Datensätzen, transformieren sie in das Format für die Instruktionsfeinabstimmung und kategorisieren sie in zwei Cluster für die Instruktionsfeinabstimmung mit bekannten Daten und die Zero-Shot-Evaluierung mit unbekannten Daten. Zusätzlich führen wir die instruktionsbewusste Extraktion visueller Merkmale ein, eine entscheidende Methode, die es dem Modell ermöglicht, informative Merkmale, die auf die gegebene Instruktion zugeschnitten sind, zu extrahieren. Die daraus resultierenden InstructBLIP-Modelle erzielen eine state-of-the-art Zero-Shot-Leistung über alle 13 unbekannten Datensätze hinweg und übertreffen BLIP-2 und das größere Flamingo deutlich. Unsere Modelle führen auch zu state-of-the-art Leistungen, wenn sie auf einzelnen nachgelagerten Aufgaben feinabgestimmt werden (z.B. 90,7% Genauigkeit auf ScienceQA IMG). Darüber hinaus demonstrieren wir qualitativ die Vorteile von InstructBLIP gegenüber gleichzeitigen multimodalen Modellen. Alle InstructBLIP-Modelle wurden unter https://github.com/salesforce/LAVIS/tree/main/projects/instructblip open-source veröffentlicht.
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.