Vedere è Credere: Stimolare GPT-4V per un Miglior Sintonizzazione delle Istruzioni Visive
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
November 13, 2023
Autori: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
I metodi esistenti di messa a punto delle istruzioni visive tipicamente sollecitano i grandi modelli linguistici con descrizioni testuali per generare dati che seguono le istruzioni. Nonostante le prestazioni promettenti ottenute, queste descrizioni sono derivate da annotazioni di immagini, che spesso sono di grana grossolana. Inoltre, le istruzioni potrebbero persino contraddire il contenuto visivo senza osservare l'intero contesto visivo. Per affrontare questa sfida, introduciamo un dataset di istruzioni visive di grana fine, LVIS-Instruct4V, che contiene 220K istruzioni allineate visivamente e consapevoli del contesto, prodotte sollecitando il potente GPT-4V con immagini provenienti da LVIS. Attraverso la validazione sperimentale e studi di caso, dimostriamo che dati di istruzioni visive di alta qualità potrebbero migliorare le prestazioni di LLaVA-1.5, un modello multimodale di grandi dimensioni all'avanguardia, su un'ampia gamma di benchmark con margini chiari. In particolare, semplicemente sostituendo LLaVA-Instruct con il nostro LVIS-Instruct4V, otteniamo risultati migliori rispetto a LLaVA sulla maggior parte dei benchmark LMM più impegnativi, ad esempio LLaVA^w (76.7 vs. 70.7) e MM-Vet (40.2 vs. 35.4). Rilasciamo i nostri dati e il modello su https://github.com/X2FD/LVIS-INSTRUCT4V.
English
Existing visual instruction tuning methods typically prompt large language
models with textual descriptions to generate instruction-following data.
Despite the promising performance achieved, these descriptions are derived from
image annotations, which are oftentimes coarse-grained. Furthermore, the
instructions might even contradict the visual content without observing the
entire visual context. To address this challenge, we introduce a fine-grained
visual instruction dataset, LVIS-Instruct4V, which contains 220K visually
aligned and context-aware instructions produced by prompting the powerful
GPT-4V with images from LVIS. Through experimental validation and case studies,
we demonstrate that high-quality visual instructional data could improve the
performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a
wide spectrum of benchmarks by clear margins. Notably, by simply replacing the
LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA
on most challenging LMM benchmarks, e.g., LLaVA^w (76.7 vs. 70.7) and MM-Vet
(40.2 vs. 35.4). We release our data and model at
https://github.com/X2FD/LVIS-INSTRUCT4V.