ChatPaper.aiChatPaper

Vision-Flan: Skalierung menschlich annotierter Aufgaben im visuellen Instruktions-Tuning

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

February 18, 2024
papers.authors: Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
cs.AI

papers.abstract

Trotz der bemerkenswerten Fähigkeiten von Vision-Sprach-Modellen (VLMs) als vielseitige visuelle Assistenten bestehen zwei wesentliche Herausforderungen innerhalb der bestehenden VLM-Frameworks: (1) die mangelnde Aufgabenvielfalt beim Pretraining und beim visuellen Instruction Tuning sowie (2) Annotationsfehler und Verzerrungen in den von GPT-4 synthetisierten Instruction-Tuning-Daten. Beide Herausforderungen führen zu Problemen wie schlechter Generalisierbarkeit, Halluzinationen und katastrophalem Vergessen. Um diese Herausforderungen zu bewältigen, haben wir Vision-Flan konstruiert, den bisher vielfältigsten öffentlich verfügbaren Datensatz für visuelles Instruction Tuning, der 187 verschiedene Aufgaben und 1.664.261 Instanzen aus akademischen Datensätzen umfasst, wobei jede Aufgabe von einer von Experten verfassten Anleitung begleitet wird. Darüber hinaus schlagen wir ein zweistufiges Instruction-Tuning-Framework vor, bei dem VLMs zunächst auf Vision-Flan feinabgestimmt und anschließend auf GPT-4-synthetisierten Daten weiter trainiert werden. Wir stellen fest, dass dieses zweistufige Tuning-Framework das traditionelle einstufige Framework für visuelles Instruction Tuning deutlich übertrifft und Spitzenleistungen über eine breite Palette von multimodalen Evaluierungsbenchmarks erzielt. Schließlich führen wir detaillierte Analysen durch, um das visuelle Instruction Tuning zu verstehen, und unsere Erkenntnisse zeigen, dass: (1) GPT-4-synthetisierte Daten die Fähigkeiten von VLMs nicht wesentlich verbessern, sondern eher die Antworten des Modells auf menschenfreundliche Formate abstimmen; (2) eine minimale Menge (z. B. 1.000) von GPT-4-synthetisierten Daten die Antworten von VLMs effektiv mit menschlichen Präferenzen in Einklang bringen kann; (3) visuelles Instruction Tuning hauptsächlich großen Sprachmodellen (LLMs) hilft, visuelle Merkmale zu verstehen.
English
Despite vision-language models' (VLMs) remarkable capabilities as versatile visual assistants, two substantial challenges persist within the existing VLM frameworks: (1) lacking task diversity in pretraining and visual instruction tuning, and (2) annotation error and bias in GPT-4 synthesized instruction tuning data. Both challenges lead to issues such as poor generalizability, hallucination, and catastrophic forgetting. To address these challenges, we construct Vision-Flan, the most diverse publicly available visual instruction tuning dataset to date, comprising 187 diverse tasks and 1,664,261 instances sourced from academic datasets, and each task is accompanied by an expert-written instruction. In addition, we propose a two-stage instruction tuning framework, in which VLMs are firstly finetuned on Vision-Flan and further tuned on GPT-4 synthesized data. We find this two-stage tuning framework significantly outperforms the traditional single-stage visual instruction tuning framework and achieves the state-of-the-art performance across a wide range of multi-modal evaluation benchmarks. Finally, we conduct in-depth analyses to understand visual instruction tuning and our findings reveal that: (1) GPT-4 synthesized data does not substantially enhance VLMs' capabilities but rather modulates the model's responses to human-preferred formats; (2) A minimal quantity (e.g., 1,000) of GPT-4 synthesized data can effectively align VLM responses with human-preference; (3) Visual instruction tuning mainly helps large-language models (LLMs) to understand visual features.
PDF101December 15, 2024