InstructBLIP: Hacia modelos visión-lenguaje de propósito general con ajuste por instrucciones
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
Autores: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
Resumen
Los modelos de lenguaje de propósito general capaces de resolver diversas tareas en el dominio del lenguaje han surgido impulsados por el enfoque de preentrenamiento y ajuste por instrucciones. Sin embargo, construir modelos de visión-lenguaje de propósito general es un desafío debido a la mayor discrepancia de tareas introducida por la entrada visual adicional. Aunque el preentrenamiento de visión-lenguaje ha sido ampliamente estudiado, el ajuste por instrucciones en visión-lenguaje sigue siendo relativamente menos explorado. En este artículo, realizamos un estudio sistemático y exhaustivo sobre el ajuste por instrucciones en visión-lenguaje basado en los modelos preentrenados BLIP-2. Reunimos una amplia variedad de 26 conjuntos de datos disponibles públicamente, los transformamos al formato de ajuste por instrucciones y los categorizamos en dos grupos para el ajuste por instrucciones con datos retenidos y la evaluación en modo cero-shot con datos excluidos. Además, introducimos la extracción de características visuales consciente de las instrucciones, un método crucial que permite al modelo extraer características informativas adaptadas a la instrucción dada. Los modelos resultantes, InstructBLIP, logran un rendimiento de vanguardia en modo cero-shot en los 13 conjuntos de datos excluidos, superando sustancialmente a BLIP-2 y al modelo más grande Flamingo. Nuestros modelos también alcanzan un rendimiento de vanguardia cuando se ajustan en tareas individuales posteriores (por ejemplo, 90.7% de precisión en ScienceQA IMG). Además, demostramos cualitativamente las ventajas de InstructBLIP sobre modelos multimodales concurrentes. Todos los modelos InstructBLIP han sido liberados como código abierto en https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.