Vision-Flan: Escalonando Tarefas Rotuladas por Humanos no Ajuste de Instruções Visuais
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
February 18, 2024
Autores: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI
Resumo
Apesar das capacidades notáveis dos modelos de visão e linguagem (VLMs) como assistentes visuais versáteis, dois desafios substanciais persistem nas estruturas existentes de VLMs: (1) a falta de diversidade de tarefas no pré-treinamento e no ajuste fino de instruções visuais, e (2) erros de anotação e viés nos dados de ajuste fino de instruções sintetizados pelo GPT-4. Ambos os desafios levam a problemas como baixa generalização, alucinação e esquecimento catastrófico. Para abordar esses desafios, construímos o Vision-Flan, o conjunto de dados de ajuste fino de instruções visuais mais diversificado disponível publicamente até o momento, compreendendo 187 tarefas diversas e 1.664.261 instâncias provenientes de conjuntos de dados acadêmicos, e cada tarefa é acompanhada por uma instrução escrita por especialistas. Além disso, propomos uma estrutura de ajuste fino de instruções em duas etapas, na qual os VLMs são primeiro ajustados no Vision-Flan e posteriormente ajustados em dados sintetizados pelo GPT-4. Descobrimos que essa estrutura de ajuste fino em duas etapas supera significativamente a estrutura tradicional de ajuste fino de instruções visuais em uma única etapa e alcança o desempenho de ponta em uma ampla gama de benchmarks de avaliação multimodal. Por fim, realizamos análises aprofundadas para entender o ajuste fino de instruções visuais, e nossas descobertas revelam que: (1) os dados sintetizados pelo GPT-4 não aprimoram substancialmente as capacidades dos VLMs, mas sim modulam as respostas do modelo para formatos preferidos pelos humanos; (2) uma quantidade mínima (por exemplo, 1.000) de dados sintetizados pelo GPT-4 pode alinhar efetivamente as respostas dos VLMs com as preferências humanas; (3) o ajuste fino de instruções visuais ajuda principalmente os modelos de linguagem de grande escala (LLMs) a compreender características visuais.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile
visual assistants, two substantial challenges persist within the existing VLM
frameworks: (1) lacking task diversity in pretraining and visual instruction
tuning, and (2) annotation error and bias in GPT-4 synthesized instruction
tuning data. Both challenges lead to issues such as poor generalizability,
hallucination, and catastrophic forgetting. To address these challenges, we
construct Vision-Flan, the most diverse publicly available visual instruction
tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances
sourced from academic datasets, and each task is accompanied by an
expert-written instruction. In addition, we propose a two-stage instruction
tuning framework, in which VLMs are firstly finetuned on Vision-Flan and
further tuned on GPT-4 synthesized data. We find this two-stage tuning
framework significantly outperforms the traditional single-stage visual
instruction tuning framework and achieves the state-of-the-art performance
across a wide range of multi-modal evaluation benchmarks. Finally, we conduct
in-depth analyses to understand visual instruction tuning and our findings
reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs'
capabilities but rather modulates the model's responses to human-preferred
formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can
effectively align VLM responses with human-preference; (3) Visual instruction
tuning mainly helps large-language models (LLMs) to understand visual features.