ChatPaper.aiChatPaper

Vision-Flan : Mise à l'échelle des tâches annotées par l'homme pour l'ajustement des instructions visuelles

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

February 18, 2024
papers.authors: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI

papers.abstract

Malgré les capacités remarquables des modèles vision-langage (VLMs) en tant qu'assistants visuels polyvalents, deux défis majeurs persistent dans les frameworks VLM existants : (1) le manque de diversité des tâches lors du pré-entraînement et du réglage par instructions visuelles, et (2) les erreurs d'annotation et les biais dans les données de réglage par instructions synthétisées par GPT-4. Ces deux défis entraînent des problèmes tels qu'une faible généralisation, des hallucinations et un oubli catastrophique. Pour relever ces défis, nous avons construit Vision-Flan, le jeu de données de réglage par instructions visuelles le plus diversifié disponible publiquement à ce jour, comprenant 187 tâches variées et 1 664 261 instances provenant de jeux de données académiques, chaque tâche étant accompagnée d'une instruction rédigée par un expert. En outre, nous proposons un framework de réglage par instructions en deux étapes, dans lequel les VLMs sont d'abord affinés sur Vision-Flan puis ajustés sur des données synthétisées par GPT-4. Nous constatons que ce framework en deux étapes surpasse significativement le framework traditionnel de réglage par instructions visuelles en une seule étape et atteint des performances de pointe sur un large éventail de benchmarks d'évaluation multimodaux. Enfin, nous menons des analyses approfondies pour comprendre le réglage par instructions visuelles, et nos conclusions révèlent que : (1) les données synthétisées par GPT-4 n'améliorent pas substantiellement les capacités des VLMs mais modulent plutôt les réponses du modèle pour les aligner sur des formats préférés par les humains ; (2) une quantité minimale (par exemple, 1 000) de données synthétisées par GPT-4 peut efficacement aligner les réponses des VLMs avec les préférences humaines ; (3) le réglage par instructions visuelles aide principalement les grands modèles de langage (LLMs) à comprendre les caractéristiques visuelles.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile visual assistants, two substantial challenges persist within the existing VLM frameworks: (1) lacking task diversity in pretraining and visual instruction tuning, and (2) annotation error and bias in GPT-4 synthesized instruction tuning data. Both challenges lead to issues such as poor generalizability, hallucination, and catastrophic forgetting. To address these challenges, we construct Vision-Flan, the most diverse publicly available visual instruction tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances sourced from academic datasets, and each task is accompanied by an expert-written instruction. In addition, we propose a two-stage instruction tuning framework, in which VLMs are firstly finetuned on Vision-Flan and further tuned on GPT-4 synthesized data. We find this two-stage tuning framework significantly outperforms the traditional single-stage visual instruction tuning framework and achieves the state-of-the-art performance across a wide range of multi-modal evaluation benchmarks. Finally, we conduct in-depth analyses to understand visual instruction tuning and our findings reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs' capabilities but rather modulates the model's responses to human-preferred formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can effectively align VLM responses with human-preference; (3) Visual instruction tuning mainly helps large-language models (LLMs) to understand visual features.
PDF101December 15, 2024