LLaVAR: Aprimoramento do Ajuste de Instrução Visual para Compreensão de Imagens com Texto
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
Autores: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
Resumo
O ajuste por instrução desbloqueia a capacidade superior dos Modelos de Linguagem de Grande Escala (LLM) para interagir com humanos. Além disso, conjuntos de dados recentes de seguimento de instruções incluem imagens como entradas visuais, coletando respostas para instruções baseadas em imagens. No entanto, modelos ajustados por instruções visuais não conseguem compreender bem os detalhes textuais dentro das imagens. Este trabalho aprimora o pipeline atual de ajuste por instruções visuais com imagens ricas em texto (por exemplo, pôsteres de filmes, capas de livros, etc.). Especificamente, primeiro utilizamos ferramentas OCR disponíveis publicamente para coletar resultados de 422K imagens ricas em texto do conjunto de dados LAION. Além disso, solicitamos ao GPT-4 apenas texto com textos reconhecidos e legendas de imagens para gerar 16K conversas, cada uma contendo pares de perguntas e respostas para imagens ricas em texto. Ao combinar nossos dados coletados com dados anteriores de seguimento de instruções multimodais, nosso modelo, LLaVAR, melhora substancialmente a capacidade do modelo LLaVA em conjuntos de dados de VQA baseados em texto (até 20% de melhoria na precisão) enquanto alcança uma precisão de 91,42% no ScienceQA. A avaliação de seguimento de instruções baseada no GPT-4 também demonstra a melhoria do nosso modelo tanto em imagens naturais quanto em imagens ricas em texto. Através de análise qualitativa, o LLaVAR mostra habilidades promissoras de interação (por exemplo, raciocínio, escrita e elaboração) com humanos com base no mais recente conteúdo online do mundo real que combina texto e imagens. Disponibilizamos nosso código/dados/modelos publicamente em https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.