LLaVAR : Amélioration du réglage des instructions visuelles pour la compréhension d'images riches en texte
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
Auteurs: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
Résumé
Le réglage par instruction débloque la capacité supérieure des modèles de langage de grande taille (LLM) à interagir avec les humains. De plus, les ensembles de données récents de suivi d'instructions incluent des images comme entrées visuelles, collectant des réponses pour des instructions basées sur des images. Cependant, les modèles réglés par instruction visuelle ne parviennent pas à bien comprendre les détails textuels dans les images. Ce travail améliore le pipeline actuel de réglage par instruction visuelle avec des images riches en texte (par exemple, des affiches de films, des couvertures de livres, etc.). Plus précisément, nous utilisons d'abord des outils OCR disponibles publiquement pour collecter des résultats sur 422K images riches en texte provenant de l'ensemble de données LAION. De plus, nous incitons GPT-4, uniquement textuel, avec les textes reconnus et les légendes d'images pour générer 16K conversations, chacune contenant des paires question-réponse pour des images riches en texte. En combinant nos données collectées avec les précédentes données de suivi d'instructions multimodales, notre modèle, LLaVAR, améliore considérablement la capacité du modèle LLaVA sur les ensembles de données VQA basés sur le texte (jusqu'à 20% d'amélioration de la précision) tout en atteignant une précision de 91,42% sur ScienceQA. L'évaluation de suivi d'instructions basée sur GPT-4 démontre également l'amélioration de notre modèle sur les images naturelles et les images riches en texte. Grâce à une analyse qualitative, LLaVAR montre des compétences prometteuses d'interaction (par exemple, raisonnement, écriture et élaboration) avec les humains basées sur le dernier contenu en ligne réel qui combine texte et images. Nous rendons notre code/données/modèles disponibles publiquement à l'adresse https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.