InstructBLIP: Rumos a Modelos de Visão-Linguagem de Propósito Geral com Ajuste por Instrução
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
Autores: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
Resumo
Modelos de linguagem de propósito geral capazes de resolver diversas tarefas no domínio da linguagem emergiram impulsionados pelo pipeline de pré-treinamento e ajuste por instrução. No entanto, a construção de modelos visão-linguagem de propósito geral é desafiadora devido à maior discrepância de tarefas introduzida pela entrada visual adicional. Embora o pré-treinamento visão-linguagem tenha sido amplamente estudado, o ajuste por instrução visão-linguagem permanece relativamente menos explorado. Neste artigo, realizamos um estudo sistemático e abrangente sobre o ajuste por instrução visão-linguagem com base nos modelos BLIP-2 pré-treinados. Reunimos uma ampla variedade de 26 conjuntos de dados publicamente disponíveis, transformamos-os no formato de ajuste por instrução e os categorizamos em dois grupos para ajuste por instrução com dados conhecidos e avaliação zero-shot com dados desconhecidos. Além disso, introduzimos a extração de características visuais consciente da instrução, um método crucial que permite ao modelo extrair características informativas adaptadas à instrução fornecida. Os modelos InstructBLIP resultantes alcançam desempenho zero-shot de ponta em todos os 13 conjuntos de dados desconhecidos, superando substancialmente o BLIP-2 e o maior Flamingo. Nossos modelos também levam ao desempenho de ponta quando ajustados em tarefas individuais de downstream (por exemplo, 90,7% de precisão no ScienceQA IMG). Além disso, demonstramos qualitativamente as vantagens do InstructBLIP sobre modelos multimodais concorrentes. Todos os modelos InstructBLIP foram disponibilizados como código aberto em https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.