LLaVAR: Miglioramento del Tuning delle Istruzioni Visive per la Comprensione di Immagini Ricche di Testo

Abstract

Il fine-tuning delle istruzioni sblocca la capacità superiore dei Modelli Linguistici di Grande Dimensione (LLM) di interagire con gli esseri umani. Inoltre, recenti dataset di istruzioni includono immagini come input visivi, raccogliendo risposte per istruzioni basate su immagini. Tuttavia, i modelli addestrati con istruzioni visive non riescono a comprendere bene i dettagli testuali all'interno delle immagini. Questo lavoro migliora l'attuale pipeline di fine-tuning delle istruzioni visive con immagini ricche di testo (ad esempio, poster di film, copertine di libri, ecc.). Nello specifico, utilizziamo prima strumenti OCR disponibili pubblicamente per raccogliere risultati su 422K immagini ricche di testo dal dataset LAION. Inoltre, sollecitiamo GPT-4 solo testo con testi riconosciuti e didascalie di immagini per generare 16K conversazioni, ciascuna contenente coppie domanda-risposta per immagini ricche di testo. Combinando i nostri dati raccolti con i precedenti dati multi-modali di istruzioni, il nostro modello, LLaVAR, migliora sostanzialmente la capacità del modello LLaVA sui dataset VQA basati su testo (fino a un miglioramento del 20% in accuratezza) raggiungendo un'accuratezza del 91.42% su ScienceQA. La valutazione delle istruzioni basata su GPT-4 dimostra anche il miglioramento del nostro modello sia su immagini naturali che su immagini ricche di testo. Attraverso l'analisi qualitativa, LLaVAR mostra promettenti capacità di interazione (ad esempio, ragionamento, scrittura e elaborazione) con gli esseri umani basate sui più recenti contenuti online del mondo reale che combinano testo e immagini. Rendiamo disponibili pubblicamente il nostro codice/dati/modelli all'indirizzo https://llavar.github.io/.

English

Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.

LLaVAR: Miglioramento del Tuning delle Istruzioni Visive per la Comprensione di Immagini Ricche di Testo

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

Abstract

Support