Sehen heißt Glauben: Bessere visuelle Instruktionsanpassung durch Prompting von GPT-4V
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
November 13, 2023
Autoren: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Zusammenfassung
Bestehende Methoden zur visuellen Instruktionsabstimmung verwenden typischerweise große Sprachmodelle, die mit textuellen Beschreibungen angeregt werden, um daten zu generieren, die Anweisungen befolgen. Trotz der vielversprechenden Leistung, die damit erzielt wird, stammen diese Beschreibungen aus Bildanmerkungen, die oft grobkörnig sind. Darüber hinaus können die Anweisungen sogar im Widerspruch zum visuellen Inhalt stehen, ohne den gesamten visuellen Kontext zu berücksichtigen. Um diese Herausforderung zu bewältigen, stellen wir einen feinkörnigen visuellen Instruktionsdatensatz vor, LVIS-Instruct4V, der 220K visuell ausgerichtete und kontextbewusste Anweisungen enthält, die durch die Anregung des leistungsstarken GPT-4V mit Bildern aus LVIS erzeugt wurden. Durch experimentelle Validierung und Fallstudien zeigen wir, dass hochwertige visuelle Instruktionsdaten die Leistung von LLaVA-1.5, einem state-of-the-art großen multimodalen Modell, über eine breite Palette von Benchmarks deutlich verbessern können. Bemerkenswerterweise erreichen wir durch den einfachen Austausch von LLaVA-Instruct durch unser LVIS-Instruct4V bessere Ergebnisse als LLaVA auf den meisten anspruchsvollen LMM-Benchmarks, z.B. LLaVA^w (76,7 vs. 70,7) und MM-Vet (40,2 vs. 35,4). Wir veröffentlichen unsere Daten und unser Modell unter https://github.com/X2FD/LVIS-INSTRUCT4V.
English
Existing visual instruction tuning methods typically prompt large language
models with textual descriptions to generate instruction-following data.
Despite the promising performance achieved, these descriptions are derived from
image annotations, which are oftentimes coarse-grained. Furthermore, the
instructions might even contradict the visual content without observing the
entire visual context. To address this challenge, we introduce a fine-grained
visual instruction dataset, LVIS-Instruct4V, which contains 220K visually
aligned and context-aware instructions produced by prompting the powerful
GPT-4V with images from LVIS. Through experimental validation and case studies,
we demonstrate that high-quality visual instructional data could improve the
performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a
wide spectrum of benchmarks by clear margins. Notably, by simply replacing the
LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA
on most challenging LMM benchmarks, e.g., LLaVA^w (76.7 vs. 70.7) and MM-Vet
(40.2 vs. 35.4). We release our data and model at
https://github.com/X2FD/LVIS-INSTRUCT4V.