Vision-Flan : Mise à l'échelle des tâches annotées par l'homme pour l'ajustement des instructions visuelles
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
February 18, 2024
papers.authors: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI
papers.abstract
Malgré les capacités remarquables des modèles vision-langage (VLMs) en tant qu'assistants visuels polyvalents, deux défis majeurs persistent dans les frameworks VLM existants : (1) le manque de diversité des tâches lors du pré-entraînement et du réglage par instructions visuelles, et (2) les erreurs d'annotation et les biais dans les données de réglage par instructions synthétisées par GPT-4. Ces deux défis entraînent des problèmes tels qu'une faible généralisation, des hallucinations et un oubli catastrophique. Pour relever ces défis, nous avons construit Vision-Flan, le jeu de données de réglage par instructions visuelles le plus diversifié disponible publiquement à ce jour, comprenant 187 tâches variées et 1 664 261 instances provenant de jeux de données académiques, chaque tâche étant accompagnée d'une instruction rédigée par un expert. En outre, nous proposons un framework de réglage par instructions en deux étapes, dans lequel les VLMs sont d'abord affinés sur Vision-Flan puis ajustés sur des données synthétisées par GPT-4. Nous constatons que ce framework en deux étapes surpasse significativement le framework traditionnel de réglage par instructions visuelles en une seule étape et atteint des performances de pointe sur un large éventail de benchmarks d'évaluation multimodaux. Enfin, nous menons des analyses approfondies pour comprendre le réglage par instructions visuelles, et nos conclusions révèlent que : (1) les données synthétisées par GPT-4 n'améliorent pas substantiellement les capacités des VLMs mais modulent plutôt les réponses du modèle pour les aligner sur des formats préférés par les humains ; (2) une quantité minimale (par exemple, 1 000) de données synthétisées par GPT-4 peut efficacement aligner les réponses des VLMs avec les préférences humaines ; (3) le réglage par instructions visuelles aide principalement les grands modèles de langage (LLMs) à comprendre les caractéristiques visuelles.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile
visual assistants, two substantial challenges persist within the existing VLM
frameworks: (1) lacking task diversity in pretraining and visual instruction
tuning, and (2) annotation error and bias in GPT-4 synthesized instruction
tuning data. Both challenges lead to issues such as poor generalizability,
hallucination, and catastrophic forgetting. To address these challenges, we
construct Vision-Flan, the most diverse publicly available visual instruction
tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances
sourced from academic datasets, and each task is accompanied by an
expert-written instruction. In addition, we propose a two-stage instruction
tuning framework, in which VLMs are firstly finetuned on Vision-Flan and
further tuned on GPT-4 synthesized data. We find this two-stage tuning
framework significantly outperforms the traditional single-stage visual
instruction tuning framework and achieves the state-of-the-art performance
across a wide range of multi-modal evaluation benchmarks. Finally, we conduct
in-depth analyses to understand visual instruction tuning and our findings
reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs'
capabilities but rather modulates the model's responses to human-preferred
formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can
effectively align VLM responses with human-preference; (3) Visual instruction
tuning mainly helps large-language models (LLMs) to understand visual features.