InstructBLIP: Verso Modelli Visione-Linguaggio Generali con Sintonizzazione su Istruzioni

Abstract

I modelli linguistici generici in grado di risolvere vari compiti nel dominio del linguaggio sono emersi grazie alla pipeline di pre-addestramento e ottimizzazione su istruzioni. Tuttavia, costruire modelli visione-linguaggio generici è impegnativo a causa della maggiore discrepanza nei compiti introdotta dall'input visivo aggiuntivo. Sebbene il pre-addestramento visione-linguaggio sia stato ampiamente studiato, l'ottimizzazione su istruzioni visione-linguaggio rimane relativamente meno esplorata. In questo articolo, conduciamo uno studio sistematico e completo sull'ottimizzazione su istruzioni visione-linguaggio basata sui modelli pre-addestrati BLIP-2. Raccogliamo una vasta gamma di 26 dataset pubblicamente disponibili, li trasformiamo in formato di ottimizzazione su istruzioni e li categorizziamo in due cluster per l'ottimizzazione su istruzioni mantenute e la valutazione zero-shot su dati non visti. Inoltre, introduciamo l'estrazione di caratteristiche visive consapevole delle istruzioni, un metodo cruciale che consente al modello di estrarre caratteristiche informative adattate all'istruzione data. I modelli InstructBLIP risultanti raggiungono prestazioni zero-shot all'avanguardia su tutti i 13 dataset non visti, superando sostanzialmente BLIP-2 e il più grande Flamingo. I nostri modelli ottengono anche prestazioni all'avanguardia quando ottimizzati su singoli compiti downstream (ad esempio, 90,7% di accuratezza su ScienceQA IMG). Inoltre, dimostriamo qualitativamente i vantaggi di InstructBLIP rispetto ai modelli multimodali concorrenti. Tutti i modelli InstructBLIP sono stati resi open-source su https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

English

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

InstructBLIP: Verso Modelli Visione-Linguaggio Generali con Sintonizzazione su Istruzioni

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Abstract

Support