InstructBLIP: Rumos a Modelos de Visão-Linguagem de Propósito Geral com Ajuste por Instrução

Resumo

Modelos de linguagem de propósito geral capazes de resolver diversas tarefas no domínio da linguagem emergiram impulsionados pelo pipeline de pré-treinamento e ajuste por instrução. No entanto, a construção de modelos visão-linguagem de propósito geral é desafiadora devido à maior discrepância de tarefas introduzida pela entrada visual adicional. Embora o pré-treinamento visão-linguagem tenha sido amplamente estudado, o ajuste por instrução visão-linguagem permanece relativamente menos explorado. Neste artigo, realizamos um estudo sistemático e abrangente sobre o ajuste por instrução visão-linguagem com base nos modelos BLIP-2 pré-treinados. Reunimos uma ampla variedade de 26 conjuntos de dados publicamente disponíveis, transformamos-os no formato de ajuste por instrução e os categorizamos em dois grupos para ajuste por instrução com dados conhecidos e avaliação zero-shot com dados desconhecidos. Além disso, introduzimos a extração de características visuais consciente da instrução, um método crucial que permite ao modelo extrair características informativas adaptadas à instrução fornecida. Os modelos InstructBLIP resultantes alcançam desempenho zero-shot de ponta em todos os 13 conjuntos de dados desconhecidos, superando substancialmente o BLIP-2 e o maior Flamingo. Nossos modelos também levam ao desempenho de ponta quando ajustados em tarefas individuais de downstream (por exemplo, 90,7% de precisão no ScienceQA IMG). Além disso, demonstramos qualitativamente as vantagens do InstructBLIP sobre modelos multimodais concorrentes. Todos os modelos InstructBLIP foram disponibilizados como código aberto em https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

English

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

InstructBLIP: Rumos a Modelos de Visão-Linguagem de Propósito Geral com Ajuste por Instrução

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Resumo

Support