ChatPaper.aiChatPaper

LLaVAR: Miglioramento del Tuning delle Istruzioni Visive per la Comprensione di Immagini Ricche di Testo

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

June 29, 2023
Autori: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI

Abstract

Il fine-tuning delle istruzioni sblocca la capacità superiore dei Modelli Linguistici di Grande Dimensione (LLM) di interagire con gli esseri umani. Inoltre, recenti dataset di istruzioni includono immagini come input visivi, raccogliendo risposte per istruzioni basate su immagini. Tuttavia, i modelli addestrati con istruzioni visive non riescono a comprendere bene i dettagli testuali all'interno delle immagini. Questo lavoro migliora l'attuale pipeline di fine-tuning delle istruzioni visive con immagini ricche di testo (ad esempio, poster di film, copertine di libri, ecc.). Nello specifico, utilizziamo prima strumenti OCR disponibili pubblicamente per raccogliere risultati su 422K immagini ricche di testo dal dataset LAION. Inoltre, sollecitiamo GPT-4 solo testo con testi riconosciuti e didascalie di immagini per generare 16K conversazioni, ciascuna contenente coppie domanda-risposta per immagini ricche di testo. Combinando i nostri dati raccolti con i precedenti dati multi-modali di istruzioni, il nostro modello, LLaVAR, migliora sostanzialmente la capacità del modello LLaVA sui dataset VQA basati su testo (fino a un miglioramento del 20% in accuratezza) raggiungendo un'accuratezza del 91.42% su ScienceQA. La valutazione delle istruzioni basata su GPT-4 dimostra anche il miglioramento del nostro modello sia su immagini naturali che su immagini ricche di testo. Attraverso l'analisi qualitativa, LLaVAR mostra promettenti capacità di interazione (ad esempio, ragionamento, scrittura e elaborazione) con gli esseri umani basate sui più recenti contenuti online del mondo reale che combinano testo e immagini. Rendiamo disponibili pubblicamente il nostro codice/dati/modelli all'indirizzo https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.
PDF113December 15, 2024