LLaVAR: Verbesserte visuelle Instruktionsoptimierung für das Verständnis textreicher Bilder
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
Autoren: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
Zusammenfassung
Instruction Tuning erschließt die überlegene Fähigkeit von Large Language Models (LLM), mit Menschen zu interagieren. Darüber hinaus umfassen neuere Instruction-Following-Datensätze Bilder als visuelle Eingaben und sammeln Antworten auf bildbasierte Anweisungen. Allerdings können visuell instruction-getunte Modelle textliche Details innerhalb von Bildern nicht gut erfassen. Diese Arbeit verbessert die aktuelle Pipeline für visuelles Instruction Tuning mit textreichen Bildern (z.B. Filmplakate, Buchcover usw.). Konkret verwenden wir zunächst öffentlich verfügbare OCR-Tools, um Ergebnisse für 422K textreiche Bilder aus dem LAION-Datensatz zu sammeln. Darüber hinaus verwenden wir textbasiertes GPT-4 mit erkannten Texten und Bildbeschreibungen, um 16K Konversationen zu generieren, die jeweils Frage-Antwort-Paare für textreiche Bilder enthalten. Durch die Kombination unserer gesammelten Daten mit früheren multimodalen Instruction-Following-Daten verbessert unser Modell, LLaVAR, die Fähigkeiten des LLaVA-Modells bei textbasierten VQA-Datensätzen erheblich (bis zu 20% Genauigkeitssteigerung) und erreicht eine Genauigkeit von 91,42% bei ScienceQA. Die auf GPT-4 basierende Instruction-Following-Evaluation zeigt ebenfalls die Verbesserung unseres Modells sowohl bei natürlichen als auch bei textreichen Bildern. Durch qualitative Analysen zeigt LLaVAR vielversprechende Interaktionsfähigkeiten (z.B. Schlussfolgerungen, Schreiben und Ausarbeitungen) mit Menschen basierend auf den neuesten realen Online-Inhalten, die Text und Bilder kombinieren. Wir stellen unseren Code/Daten/Modelle öffentlich unter https://llavar.github.io/ zur Verfügung.
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.