Voir, c'est croire : Inciter GPT-4V pour un meilleur réglage des instructions visuelles
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
November 13, 2023
Auteurs: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Résumé
Les méthodes existantes de réglage d'instructions visuelles incitent généralement les grands modèles de langage avec des descriptions textuelles pour générer des données d'instructions. Malgré les performances prometteuses obtenues, ces descriptions sont dérivées d'annotations d'images, qui sont souvent grossières. De plus, les instructions peuvent même contredire le contenu visuel sans observer l'ensemble du contexte visuel. Pour relever ce défi, nous introduisons un ensemble de données d'instructions visuelles fines, LVIS-Instruct4V, qui contient 220K instructions alignées visuellement et conscientes du contexte, produites en incitant le puissant GPT-4V avec des images de LVIS. Grâce à une validation expérimentale et à des études de cas, nous démontrons que des données d'instructions visuelles de haute qualité pourraient améliorer les performances de LLaVA-1.5, un modèle multimodal de pointe, sur un large éventail de benchmarks avec des marges claires. Notamment, en remplaçant simplement LLaVA-Instruct par notre LVIS-Instruct4V, nous obtenons de meilleurs résultats que LLaVA sur la plupart des benchmarks LMM les plus difficiles, par exemple, LLaVA^w (76.7 contre 70.7) et MM-Vet (40.2 contre 35.4). Nous publions nos données et notre modèle à l'adresse https://github.com/X2FD/LVIS-INSTRUCT4V.
English
Existing visual instruction tuning methods typically prompt large language
models with textual descriptions to generate instruction-following data.
Despite the promising performance achieved, these descriptions are derived from
image annotations, which are oftentimes coarse-grained. Furthermore, the
instructions might even contradict the visual content without observing the
entire visual context. To address this challenge, we introduce a fine-grained
visual instruction dataset, LVIS-Instruct4V, which contains 220K visually
aligned and context-aware instructions produced by prompting the powerful
GPT-4V with images from LVIS. Through experimental validation and case studies,
we demonstrate that high-quality visual instructional data could improve the
performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a
wide spectrum of benchmarks by clear margins. Notably, by simply replacing the
LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA
on most challenging LMM benchmarks, e.g., LLaVA^w (76.7 vs. 70.7) and MM-Vet
(40.2 vs. 35.4). We release our data and model at
https://github.com/X2FD/LVIS-INSTRUCT4V.