InstructBLIP: К универсальным моделям для обработки зрения и языка с помощью настройки по инструкциям
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
May 11, 2023
Авторы: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
cs.AI
Аннотация
Универсальные языковые модели, способные решать различные задачи в области обработки естественного языка, появились благодаря использованию конвейера предварительного обучения и настройки на инструкциях. Однако создание универсальных моделей для обработки визуально-языковых данных является более сложной задачей из-за увеличения различий между задачами, вызванного дополнительным визуальным вводом. Хотя предварительное обучение для визуально-языковых моделей широко изучалось, настройка на инструкциях в этой области остается менее исследованной. В данной работе мы проводим систематическое и всестороннее исследование настройки на инструкциях для визуально-языковых моделей на основе предварительно обученных моделей BLIP-2. Мы собираем 26 общедоступных наборов данных, преобразуем их в формат для настройки на инструкциях и разделяем на две группы: для настройки на инструкциях и для оценки с нулевым обучением. Кроме того, мы представляем метод извлечения визуальных признаков, учитывающих инструкции, который позволяет модели извлекать информативные признаки, адаптированные к конкретной инструкции. Полученные модели InstructBLIP демонстрируют наилучшие результаты с нулевым обучением на всех 13 наборах данных, значительно превосходя BLIP-2 и более крупную модель Flamingo. Наши модели также показывают наилучшие результаты при дообучении на отдельных задачах (например, 90,7% точности на ScienceQA IMG). Кроме того, мы качественно демонстрируем преимущества InstructBLIP по сравнению с современными мультимодальными моделями. Все модели InstructBLIP были опубликованы в открытом доступе по адресу https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
English
General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.