LLaVAR: Verbeterde Visuele Instructieafstemming voor het Begrijpen van Tekstrijke Afbeeldingen

Samenvatting

Instructie-afstemming ontsluit de superieure mogelijkheden van Large Language Models (LLM) om te interacteren met mensen. Bovendien bevatten recente datasets voor instructievolging afbeeldingen als visuele invoer, waarbij reacties worden verzameld voor op afbeeldingen gebaseerde instructies. Visueel afgestemde modellen voor instructievolging kunnen echter tekstuele details binnen afbeeldingen niet goed begrijpen. Dit werk verbetert de huidige pipeline voor visuele instructie-afstemming met tekstrijke afbeeldingen (bijv. filmposters, boekomslagen, enz.). Specifiek gebruiken we eerst openbaar beschikbare OCR-tools om resultaten te verzamelen van 422K tekstrijke afbeeldingen uit de LAION-dataset. Daarnaast vragen we tekst-only GPT-4 om met herkende teksten en beeldbeschrijvingen 16K conversaties te genereren, elk met vraag-antwoordparen voor tekstrijke afbeeldingen. Door onze verzamelde data te combineren met eerdere multi-modale instructievolgende data, verbetert ons model, LLaVAR, de mogelijkheden van het LLaVA-model aanzienlijk op tekstgebaseerde VQA-datasets (tot 20% nauwkeurigheidsverbetering) terwijl het een nauwkeurigheid van 91,42% behaalt op ScienceQA. De op GPT-4 gebaseerde evaluatie van instructievolging toont ook de verbetering van ons model aan op zowel natuurlijke afbeeldingen als tekstrijke afbeeldingen. Door kwalitatieve analyse laat LLaVAR veelbelovende interactievaardigheden zien (bijv. redeneren, schrijven en uitweiden) met mensen, gebaseerd op de nieuwste real-world online content die tekst en afbeeldingen combineert. We maken onze code/data/modellen openbaar beschikbaar op https://llavar.github.io/.

English

Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.

LLaVAR: Verbeterde Visuele Instructieafstemming voor het Begrijpen van Tekstrijke Afbeeldingen

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

Samenvatting

Support