ChatPaper.aiChatPaper

Vision-Flan: Schaalvergroting van door mensen gelabelde taken in visuele instructieafstemming

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

February 18, 2024
Auteurs: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI

Samenvatting

Ondanks de opmerkelijke capaciteiten van visie-taalmodellen (VLMs) als veelzijdige visuele assistenten, blijven er twee aanzienlijke uitdagingen bestaan binnen de bestaande VLM-frameworks: (1) een gebrek aan taakdiversiteit in de voorafgaande training en visuele instructieafstemming, en (2) annotatiefouten en bias in de door GPT-4 gesynthetiseerde instructieafstemmingsdata. Beide uitdagingen leiden tot problemen zoals slechte generaliseerbaarheid, hallucinatie en catastrofaal vergeten. Om deze uitdagingen aan te pakken, hebben we Vision-Flan geconstrueerd, de meest diverse openbaar beschikbare dataset voor visuele instructieafstemming tot nu toe, bestaande uit 187 diverse taken en 1.664.261 instanties afkomstig uit academische datasets, waarbij elke taak wordt vergezeld door een door experts geschreven instructie. Daarnaast stellen we een tweefasen instructieafstemmingsframework voor, waarin VLMs eerst worden afgestemd op Vision-Flan en vervolgens verder worden afgestemd op door GPT-4 gesynthetiseerde data. We ontdekken dat dit tweefasen afstemmingsframework aanzienlijk beter presteert dan het traditionele eenfasige visuele instructieafstemmingsframework en de state-of-the-art prestaties behaalt op een breed scala aan multimodale evaluatiebenchmarks. Ten slotte voeren we diepgaande analyses uit om visuele instructieafstemming te begrijpen, en onze bevindingen onthullen dat: (1) door GPT-4 gesynthetiseerde data de capaciteiten van VLMs niet substantieel verbetert, maar eerder de reacties van het model afstemt op door mensen geprefereerde formaten; (2) Een minimale hoeveelheid (bijvoorbeeld 1.000) door GPT-4 gesynthetiseerde data kan de reacties van VLMs effectief afstemmen op menselijke voorkeuren; (3) Visuele instructieafstemming helpt voornamelijk grote-taalmodellen (LLMs) om visuele kenmerken te begrijpen.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile visual assistants, two substantial challenges persist within the existing VLM frameworks: (1) lacking task diversity in pretraining and visual instruction tuning, and (2) annotation error and bias in GPT-4 synthesized instruction tuning data. Both challenges lead to issues such as poor generalizability, hallucination, and catastrophic forgetting. To address these challenges, we construct Vision-Flan, the most diverse publicly available visual instruction tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances sourced from academic datasets, and each task is accompanied by an expert-written instruction. In addition, we propose a two-stage instruction tuning framework, in which VLMs are firstly finetuned on Vision-Flan and further tuned on GPT-4 synthesized data. We find this two-stage tuning framework significantly outperforms the traditional single-stage visual instruction tuning framework and achieves the state-of-the-art performance across a wide range of multi-modal evaluation benchmarks. Finally, we conduct in-depth analyses to understand visual instruction tuning and our findings reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs' capabilities but rather modulates the model's responses to human-preferred formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can effectively align VLM responses with human-preference; (3) Visual instruction tuning mainly helps large-language models (LLMs) to understand visual features.
PDF101December 15, 2024