Ver para Crer: Estimulando o GPT-4V para um Melhor Ajuste de Instrução Visual
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
November 13, 2023
Autores: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
Os métodos existentes de ajuste fino de instruções visuais normalmente solicitam grandes modelos de linguagem com descrições textuais para gerar dados que seguem instruções. Apesar do desempenho promissor alcançado, essas descrições são derivadas de anotações de imagens, que muitas vezes são de granularidade grossa. Além disso, as instruções podem até mesmo contradizer o conteúdo visual sem observar o contexto visual completo. Para enfrentar esse desafio, introduzimos um conjunto de dados de instruções visuais de granularidade fina, o LVIS-Instruct4V, que contém 220 mil instruções alinhadas visualmente e conscientes do contexto, produzidas ao solicitar o poderoso GPT-4V com imagens do LVIS. Por meio de validação experimental e estudos de caso, demonstramos que dados de instrução visual de alta qualidade podem melhorar o desempenho do LLaVA-1.5, um modelo multimodal de última geração, em uma ampla gama de benchmarks por margens claras. Notavelmente, ao simplesmente substituir o LLaVA-Instruct pelo nosso LVIS-Instruct4V, alcançamos melhores resultados do que o LLaVA na maioria dos benchmarks desafiadores de LMM, por exemplo, LLaVA^w (76,7 vs. 70,7) e MM-Vet (40,2 vs. 35,4). Disponibilizamos nossos dados e modelo em https://github.com/X2FD/LVIS-INSTRUCT4V.
English
Existing visual instruction tuning methods typically prompt large language
models with textual descriptions to generate instruction-following data.
Despite the promising performance achieved, these descriptions are derived from
image annotations, which are oftentimes coarse-grained. Furthermore, the
instructions might even contradict the visual content without observing the
entire visual context. To address this challenge, we introduce a fine-grained
visual instruction dataset, LVIS-Instruct4V, which contains 220K visually
aligned and context-aware instructions produced by prompting the powerful
GPT-4V with images from LVIS. Through experimental validation and case studies,
we demonstrate that high-quality visual instructional data could improve the
performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a
wide spectrum of benchmarks by clear margins. Notably, by simply replacing the
LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA
on most challenging LMM benchmarks, e.g., LLaVA^w (76.7 vs. 70.7) and MM-Vet
(40.2 vs. 35.4). We release our data and model at
https://github.com/X2FD/LVIS-INSTRUCT4V.