Vision-Flan: Scalabilità dei Task Etichettati da Umani nel Fine-Tuning di Istruzioni Visive
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
February 18, 2024
Autori: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI
Abstract
Nonostante le straordinarie capacità dei modelli visione-linguaggio (VLMs) come assistenti visivi versatili, due sfide significative persistono all'interno degli attuali framework VLM: (1) la mancanza di diversità nei compiti durante il pre-training e la messa a punto delle istruzioni visive, e (2) gli errori di annotazione e i bias nei dati di messa a punto delle istruzioni sintetizzati da GPT-4. Entrambe le sfide portano a problemi come una scarsa generalizzabilità, allucinazioni e dimenticanza catastrofica. Per affrontare queste sfide, abbiamo costruito Vision-Flan, il dataset di messa a punto delle istruzioni visive più diversificato attualmente disponibile al pubblico, comprendente 187 compiti diversi e 1.664.261 istanze provenienti da dataset accademici, e ogni compito è accompagnato da un'istruzione scritta da esperti. Inoltre, proponiamo un framework di messa a punto delle istruzioni in due fasi, in cui i VLMs vengono prima messi a punto su Vision-Flan e ulteriormente ottimizzati sui dati sintetizzati da GPT-4. Abbiamo scoperto che questo framework di messa a punto in due fasi supera significativamente il tradizionale framework di messa a punto delle istruzioni visive in una sola fase e raggiunge prestazioni all'avanguardia in un'ampia gamma di benchmark di valutazione multi-modale. Infine, conduciamo analisi approfondite per comprendere la messa a punto delle istruzioni visive e le nostre scoperte rivelano che: (1) i dati sintetizzati da GPT-4 non migliorano sostanzialmente le capacità dei VLMs, ma piuttosto modulano le risposte del modello in formati preferiti dagli esseri umani; (2) una quantità minima (ad esempio, 1.000) di dati sintetizzati da GPT-4 può allineare efficacemente le risposte dei VLMs con le preferenze umane; (3) la messa a punto delle istruzioni visive aiuta principalmente i modelli linguistici di grandi dimensioni (LLMs) a comprendere le caratteristiche visive.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile
visual assistants, two substantial challenges persist within the existing VLM
frameworks: (1) lacking task diversity in pretraining and visual instruction
tuning, and (2) annotation error and bias in GPT-4 synthesized instruction
tuning data. Both challenges lead to issues such as poor generalizability,
hallucination, and catastrophic forgetting. To address these challenges, we
construct Vision-Flan, the most diverse publicly available visual instruction
tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances
sourced from academic datasets, and each task is accompanied by an
expert-written instruction. In addition, we propose a two-stage instruction
tuning framework, in which VLMs are firstly finetuned on Vision-Flan and
further tuned on GPT-4 synthesized data. We find this two-stage tuning
framework significantly outperforms the traditional single-stage visual
instruction tuning framework and achieves the state-of-the-art performance
across a wide range of multi-modal evaluation benchmarks. Finally, we conduct
in-depth analyses to understand visual instruction tuning and our findings
reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs'
capabilities but rather modulates the model's responses to human-preferred
formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can
effectively align VLM responses with human-preference; (3) Visual instruction
tuning mainly helps large-language models (LLMs) to understand visual features.