LLaVAR:テキスト豊富な画像理解のための拡張視覚指示チューニング
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
著者: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
要旨
命令チューニングは、大規模言語モデル(LLM)が人間と対話するための優れた能力を引き出します。さらに、最近の命令追従データセットには、視覚的な入力として画像が含まれており、画像ベースの指示に対する応答が収集されています。しかし、視覚的な命令チューニングを施されたモデルは、画像内のテキストの詳細を十分に理解できません。本研究では、テキストが豊富な画像(例:映画ポスター、本の表紙など)を用いて、現在の視覚的命令チューニングパイプラインを強化します。具体的には、まず公開されているOCRツールを使用して、LAIONデータセットから422Kのテキスト豊富な画像の結果を収集します。さらに、認識されたテキストと画像キャプションを用いて、テキストのみのGPT-4にプロンプトを送り、テキスト豊富な画像に対する質問と回答のペアを含む16Kの会話を生成します。収集したデータを以前のマルチモーダル命令追従データと組み合わせることで、我々のモデルLLaVARは、テキストベースのVQAデータセットにおいてLLaVAモデルの能力を大幅に向上させ(最大20%の精度向上)、ScienceQAでは91.42%の精度を達成します。GPT-4ベースの命令追従評価も、自然画像とテキスト豊富な画像の両方において我々のモデルの改善を示しています。定性的分析を通じて、LLaVARは、テキストと画像を組み合わせた最新の現実世界のオンラインコンテンツに基づいて、人間との対話(例:推論、執筆、詳細説明)において有望なスキルを示します。我々は、コード/データ/モデルをhttps://llavar.github.io/で公開しています。
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.