InstructBLIP: Hacia modelos visión-lenguaje de propósito general con ajuste por instrucciones

Resumen

Los modelos de lenguaje de propósito general capaces de resolver diversas tareas en el dominio del lenguaje han surgido impulsados por el enfoque de preentrenamiento y ajuste por instrucciones. Sin embargo, construir modelos de visión-lenguaje de propósito general es un desafío debido a la mayor discrepancia de tareas introducida por la entrada visual adicional. Aunque el preentrenamiento de visión-lenguaje ha sido ampliamente estudiado, el ajuste por instrucciones en visión-lenguaje sigue siendo relativamente menos explorado. En este artículo, realizamos un estudio sistemático y exhaustivo sobre el ajuste por instrucciones en visión-lenguaje basado en los modelos preentrenados BLIP-2. Reunimos una amplia variedad de 26 conjuntos de datos disponibles públicamente, los transformamos al formato de ajuste por instrucciones y los categorizamos en dos grupos para el ajuste por instrucciones con datos retenidos y la evaluación en modo cero-shot con datos excluidos. Además, introducimos la extracción de características visuales consciente de las instrucciones, un método crucial que permite al modelo extraer características informativas adaptadas a la instrucción dada. Los modelos resultantes, InstructBLIP, logran un rendimiento de vanguardia en modo cero-shot en los 13 conjuntos de datos excluidos, superando sustancialmente a BLIP-2 y al modelo más grande Flamingo. Nuestros modelos también alcanzan un rendimiento de vanguardia cuando se ajustan en tareas individuales posteriores (por ejemplo, 90.7% de precisión en ScienceQA IMG). Además, demostramos cualitativamente las ventajas de InstructBLIP sobre modelos multimodales concurrentes. Todos los modelos InstructBLIP han sido liberados como código abierto en https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

English

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

InstructBLIP: Hacia modelos visión-lenguaje de propósito general con ajuste por instrucciones

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Resumen

Support