Vision-Flan: Масштабирование задач с человеческой разметкой для настройки визуальных инструкций
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
February 18, 2024
Авторы: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI
Аннотация
Несмотря на впечатляющие возможности моделей, работающих с визуальными и языковыми данными (VLMs), в качестве универсальных визуальных ассистентов, в существующих рамках VLMs сохраняются две существенные проблемы: (1) недостаточное разнообразие задач на этапах предварительного обучения и настройки визуальных инструкций, и (2) ошибки аннотаций и смещения в данных для настройки инструкций, синтезированных GPT-4. Обе проблемы приводят к таким недостаткам, как низкая обобщаемость, галлюцинации и катастрофическое забывание. Для решения этих проблем мы создали Vision-Flan — наиболее разнообразный общедоступный набор данных для настройки визуальных инструкций, включающий 187 разнообразных задач и 1 664 261 примеров, взятых из академических наборов данных, причем каждая задача сопровождается инструкцией, написанной экспертом. Кроме того, мы предлагаем двухэтапную структуру настройки инструкций, в которой VLMs сначала донастраиваются на Vision-Flan, а затем дополнительно настраиваются на данных, синтезированных GPT-4. Мы обнаружили, что эта двухэтапная структура настройки значительно превосходит традиционную одноэтапную структуру настройки визуальных инструкций и достигает наилучших результатов на широком спектре многомодальных оценочных тестов. Наконец, мы провели углубленный анализ, чтобы понять настройку визуальных инструкций, и наши выводы показывают, что: (1) данные, синтезированные GPT-4, не существенно улучшают возможности VLMs, а скорее корректируют ответы модели в соответствии с предпочитаемыми человеком форматами; (2) минимальное количество (например, 1 000) данных, синтезированных GPT-4, может эффективно согласовать ответы VLMs с предпочтениями человека; (3) настройка визуальных инструкций в основном помогает крупным языковым моделям (LLMs) понимать визуальные особенности.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile
visual assistants, two substantial challenges persist within the existing VLM
frameworks: (1) lacking task diversity in pretraining and visual instruction
tuning, and (2) annotation error and bias in GPT-4 synthesized instruction
tuning data. Both challenges lead to issues such as poor generalizability,
hallucination, and catastrophic forgetting. To address these challenges, we
construct Vision-Flan, the most diverse publicly available visual instruction
tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances
sourced from academic datasets, and each task is accompanied by an
expert-written instruction. In addition, we propose a two-stage instruction
tuning framework, in which VLMs are firstly finetuned on Vision-Flan and
further tuned on GPT-4 synthesized data. We find this two-stage tuning
framework significantly outperforms the traditional single-stage visual
instruction tuning framework and achieves the state-of-the-art performance
across a wide range of multi-modal evaluation benchmarks. Finally, we conduct
in-depth analyses to understand visual instruction tuning and our findings
reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs'
capabilities but rather modulates the model's responses to human-preferred
formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can
effectively align VLM responses with human-preference; (3) Visual instruction
tuning mainly helps large-language models (LLMs) to understand visual features.