Zien is geloven: GPT-4V aansturen voor betere visuele instructieafstemming
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
November 13, 2023
Auteurs: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Bestaande methoden voor visuele instructieafstemming maken doorgaans gebruik van tekstuele beschrijvingen om grote taalmodellen aan te sturen voor het genereren van instructievolgende data. Ondanks de veelbelovende prestaties die hiermee worden bereikt, zijn deze beschrijvingen afgeleid van beeldannotaties, die vaak grofkorrelig zijn. Bovendien kunnen de instructies zelfs in tegenspraak zijn met de visuele inhoud zonder het volledige visuele context te observeren. Om deze uitdaging aan te pakken, introduceren we een fijnmazige visuele instructiedataset, LVIS-Instruct4V, die 220K visueel uitgelijnde en contextbewuste instructies bevat, gegenereerd door het krachtige GPT-4V aan te sturen met afbeeldingen uit LVIS. Door experimentele validatie en casestudies tonen we aan dat hoogwaardige visuele instructiedata de prestaties van LLaVA-1.5, een state-of-the-art groot multimodaal model, op een breed scala aan benchmarks aanzienlijk kunnen verbeteren. Opmerkelijk is dat door simpelweg LLaVA-Instruct te vervangen door onze LVIS-Instruct4V, we betere resultaten behalen dan LLaVA op de meest uitdagende LMM-benchmarks, zoals LLaVA^w (76,7 vs. 70,7) en MM-Vet (40,2 vs. 35,4). We maken onze data en model beschikbaar op https://github.com/X2FD/LVIS-INSTRUCT4V.
English
Existing visual instruction tuning methods typically prompt large language
models with textual descriptions to generate instruction-following data.
Despite the promising performance achieved, these descriptions are derived from
image annotations, which are oftentimes coarse-grained. Furthermore, the
instructions might even contradict the visual content without observing the
entire visual context. To address this challenge, we introduce a fine-grained
visual instruction dataset, LVIS-Instruct4V, which contains 220K visually
aligned and context-aware instructions produced by prompting the powerful
GPT-4V with images from LVIS. Through experimental validation and case studies,
we demonstrate that high-quality visual instructional data could improve the
performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a
wide spectrum of benchmarks by clear margins. Notably, by simply replacing the
LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA
on most challenging LMM benchmarks, e.g., LLaVA^w (76.7 vs. 70.7) and MM-Vet
(40.2 vs. 35.4). We release our data and model at
https://github.com/X2FD/LVIS-INSTRUCT4V.