Vision-Flan: Escalonando Tarefas Rotuladas por Humanos no Ajuste de Instruções Visuais

Resumo

Apesar das capacidades notáveis dos modelos de visão e linguagem (VLMs) como assistentes visuais versáteis, dois desafios substanciais persistem nas estruturas existentes de VLMs: (1) a falta de diversidade de tarefas no pré-treinamento e no ajuste fino de instruções visuais, e (2) erros de anotação e viés nos dados de ajuste fino de instruções sintetizados pelo GPT-4. Ambos os desafios levam a problemas como baixa generalização, alucinação e esquecimento catastrófico. Para abordar esses desafios, construímos o Vision-Flan, o conjunto de dados de ajuste fino de instruções visuais mais diversificado disponível publicamente até o momento, compreendendo 187 tarefas diversas e 1.664.261 instâncias provenientes de conjuntos de dados acadêmicos, e cada tarefa é acompanhada por uma instrução escrita por especialistas. Além disso, propomos uma estrutura de ajuste fino de instruções em duas etapas, na qual os VLMs são primeiro ajustados no Vision-Flan e posteriormente ajustados em dados sintetizados pelo GPT-4. Descobrimos que essa estrutura de ajuste fino em duas etapas supera significativamente a estrutura tradicional de ajuste fino de instruções visuais em uma única etapa e alcança o desempenho de ponta em uma ampla gama de benchmarks de avaliação multimodal. Por fim, realizamos análises aprofundadas para entender o ajuste fino de instruções visuais, e nossas descobertas revelam que: (1) os dados sintetizados pelo GPT-4 não aprimoram substancialmente as capacidades dos VLMs, mas sim modulam as respostas do modelo para formatos preferidos pelos humanos; (2) uma quantidade mínima (por exemplo, 1.000) de dados sintetizados pelo GPT-4 pode alinhar efetivamente as respostas dos VLMs com as preferências humanas; (3) o ajuste fino de instruções visuais ajuda principalmente os modelos de linguagem de grande escala (LLMs) a compreender características visuais.

English

Despite vision-language models' (VLMs) remarkable capabilities as versatile visual assistants, two substantial challenges persist within the existing VLM frameworks: (1) lacking task diversity in pretraining and visual instruction tuning, and (2) annotation error and bias in GPT-4 synthesized instruction tuning data. Both challenges lead to issues such as poor generalizability, hallucination, and catastrophic forgetting. To address these challenges, we construct Vision-Flan, the most diverse publicly available visual instruction tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances sourced from academic datasets, and each task is accompanied by an expert-written instruction. In addition, we propose a two-stage instruction tuning framework, in which VLMs are firstly finetuned on Vision-Flan and further tuned on GPT-4 synthesized data. We find this two-stage tuning framework significantly outperforms the traditional single-stage visual instruction tuning framework and achieves the state-of-the-art performance across a wide range of multi-modal evaluation benchmarks. Finally, we conduct in-depth analyses to understand visual instruction tuning and our findings reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs' capabilities but rather modulates the model's responses to human-preferred formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can effectively align VLM responses with human-preference; (3) Visual instruction tuning mainly helps large-language models (LLMs) to understand visual features.

Vision-Flan: Escalonando Tarefas Rotuladas por Humanos no Ajuste de Instruções Visuais

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Resumo

Support