LLaVAR: Miglioramento del Tuning delle Istruzioni Visive per la Comprensione di Immagini Ricche di Testo
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
Autori: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
Abstract
Il fine-tuning delle istruzioni sblocca la capacità superiore dei Modelli Linguistici di Grande Dimensione (LLM) di interagire con gli esseri umani. Inoltre, recenti dataset di istruzioni includono immagini come input visivi, raccogliendo risposte per istruzioni basate su immagini. Tuttavia, i modelli addestrati con istruzioni visive non riescono a comprendere bene i dettagli testuali all'interno delle immagini. Questo lavoro migliora l'attuale pipeline di fine-tuning delle istruzioni visive con immagini ricche di testo (ad esempio, poster di film, copertine di libri, ecc.). Nello specifico, utilizziamo prima strumenti OCR disponibili pubblicamente per raccogliere risultati su 422K immagini ricche di testo dal dataset LAION. Inoltre, sollecitiamo GPT-4 solo testo con testi riconosciuti e didascalie di immagini per generare 16K conversazioni, ciascuna contenente coppie domanda-risposta per immagini ricche di testo. Combinando i nostri dati raccolti con i precedenti dati multi-modali di istruzioni, il nostro modello, LLaVAR, migliora sostanzialmente la capacità del modello LLaVA sui dataset VQA basati su testo (fino a un miglioramento del 20% in accuratezza) raggiungendo un'accuratezza del 91.42% su ScienceQA. La valutazione delle istruzioni basata su GPT-4 dimostra anche il miglioramento del nostro modello sia su immagini naturali che su immagini ricche di testo. Attraverso l'analisi qualitativa, LLaVAR mostra promettenti capacità di interazione (ad esempio, ragionamento, scrittura e elaborazione) con gli esseri umani basate sui più recenti contenuti online del mondo reale che combinano testo e immagini. Rendiamo disponibili pubblicamente il nostro codice/dati/modelli all'indirizzo https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.