LLaVAR: Verbeterde Visuele Instructieafstemming voor het Begrijpen van Tekstrijke Afbeeldingen
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
Auteurs: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
Samenvatting
Instructie-afstemming ontsluit de superieure mogelijkheden van Large Language Models (LLM) om te interacteren met mensen. Bovendien bevatten recente datasets voor instructievolging afbeeldingen als visuele invoer, waarbij reacties worden verzameld voor op afbeeldingen gebaseerde instructies. Visueel afgestemde modellen voor instructievolging kunnen echter tekstuele details binnen afbeeldingen niet goed begrijpen. Dit werk verbetert de huidige pipeline voor visuele instructie-afstemming met tekstrijke afbeeldingen (bijv. filmposters, boekomslagen, enz.). Specifiek gebruiken we eerst openbaar beschikbare OCR-tools om resultaten te verzamelen van 422K tekstrijke afbeeldingen uit de LAION-dataset. Daarnaast vragen we tekst-only GPT-4 om met herkende teksten en beeldbeschrijvingen 16K conversaties te genereren, elk met vraag-antwoordparen voor tekstrijke afbeeldingen. Door onze verzamelde data te combineren met eerdere multi-modale instructievolgende data, verbetert ons model, LLaVAR, de mogelijkheden van het LLaVA-model aanzienlijk op tekstgebaseerde VQA-datasets (tot 20% nauwkeurigheidsverbetering) terwijl het een nauwkeurigheid van 91,42% behaalt op ScienceQA. De op GPT-4 gebaseerde evaluatie van instructievolging toont ook de verbetering van ons model aan op zowel natuurlijke afbeeldingen als tekstrijke afbeeldingen. Door kwalitatieve analyse laat LLaVAR veelbelovende interactievaardigheden zien (bijv. redeneren, schrijven en uitweiden) met mensen, gebaseerd op de nieuwste real-world online content die tekst en afbeeldingen combineert. We maken onze code/data/modellen openbaar beschikbaar op https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.