Vision-Flan: Scalabilità dei Task Etichettati da Umani nel Fine-Tuning di Istruzioni Visive

Abstract

Nonostante le straordinarie capacità dei modelli visione-linguaggio (VLMs) come assistenti visivi versatili, due sfide significative persistono all'interno degli attuali framework VLM: (1) la mancanza di diversità nei compiti durante il pre-training e la messa a punto delle istruzioni visive, e (2) gli errori di annotazione e i bias nei dati di messa a punto delle istruzioni sintetizzati da GPT-4. Entrambe le sfide portano a problemi come una scarsa generalizzabilità, allucinazioni e dimenticanza catastrofica. Per affrontare queste sfide, abbiamo costruito Vision-Flan, il dataset di messa a punto delle istruzioni visive più diversificato attualmente disponibile al pubblico, comprendente 187 compiti diversi e 1.664.261 istanze provenienti da dataset accademici, e ogni compito è accompagnato da un'istruzione scritta da esperti. Inoltre, proponiamo un framework di messa a punto delle istruzioni in due fasi, in cui i VLMs vengono prima messi a punto su Vision-Flan e ulteriormente ottimizzati sui dati sintetizzati da GPT-4. Abbiamo scoperto che questo framework di messa a punto in due fasi supera significativamente il tradizionale framework di messa a punto delle istruzioni visive in una sola fase e raggiunge prestazioni all'avanguardia in un'ampia gamma di benchmark di valutazione multi-modale. Infine, conduciamo analisi approfondite per comprendere la messa a punto delle istruzioni visive e le nostre scoperte rivelano che: (1) i dati sintetizzati da GPT-4 non migliorano sostanzialmente le capacità dei VLMs, ma piuttosto modulano le risposte del modello in formati preferiti dagli esseri umani; (2) una quantità minima (ad esempio, 1.000) di dati sintetizzati da GPT-4 può allineare efficacemente le risposte dei VLMs con le preferenze umane; (3) la messa a punto delle istruzioni visive aiuta principalmente i modelli linguistici di grandi dimensioni (LLMs) a comprendere le caratteristiche visive.

English

Despite vision-language models' (VLMs) remarkable capabilities as versatile visual assistants, two substantial challenges persist within the existing VLM frameworks: (1) lacking task diversity in pretraining and visual instruction tuning, and (2) annotation error and bias in GPT-4 synthesized instruction tuning data. Both challenges lead to issues such as poor generalizability, hallucination, and catastrophic forgetting. To address these challenges, we construct Vision-Flan, the most diverse publicly available visual instruction tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances sourced from academic datasets, and each task is accompanied by an expert-written instruction. In addition, we propose a two-stage instruction tuning framework, in which VLMs are firstly finetuned on Vision-Flan and further tuned on GPT-4 synthesized data. We find this two-stage tuning framework significantly outperforms the traditional single-stage visual instruction tuning framework and achieves the state-of-the-art performance across a wide range of multi-modal evaluation benchmarks. Finally, we conduct in-depth analyses to understand visual instruction tuning and our findings reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs' capabilities but rather modulates the model's responses to human-preferred formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can effectively align VLM responses with human-preference; (3) Visual instruction tuning mainly helps large-language models (LLMs) to understand visual features.

Vision-Flan: Scalabilità dei Task Etichettati da Umani nel Fine-Tuning di Istruzioni Visive

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Abstract

Support