TextSquare: テキスト中心の視覚的指示チューニングのスケールアップ
TextSquare: Scaling up Text-Centric Visual Instruction Tuning
April 19, 2024
著者: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI
要旨
テキスト中心の視覚的質問応答(VQA)は、マルチモーダル大規模言語モデル(MLLMs)の進展により大きな進歩を遂げていますが、オープンソースのモデルはGPT4VやGeminiなどの主要モデルに及ばない状況が続いています。その一因として、広範で高品質な指示チューニングデータの不足が挙げられます。この課題に対処するため、我々はクローズドソースのMLLMsを活用して生成された大規模で高品質な指示チューニングデータセット、Square-10Mを構築する新たなアプローチを提案します。このデータ構築プロセスは「Square」と名付けられ、自己質問、回答、推論、評価の4つのステップで構成されます。Square-10Mを用いた実験から、以下の3つの重要な知見が得られました:1)我々のモデル、TextSquareは、オープンソースの従来の最先端テキスト中心MLLMsを大幅に上回り、OCRBenchで新たな基準(62.2%)を確立しました。さらに、10のテキスト中心ベンチマークのうち6つでGPT4VやGeminiなどのトップモデルを凌駕しました。2)また、VQA推論データが特定の質問に対する包括的な文脈的洞察を提供する上で重要な役割を果たすことを示しました。これにより、精度が向上するだけでなく、幻覚(hallucination)が大幅に軽減されます。具体的には、TextSquareは4つの一般的なVQAおよび幻覚評価データセットで平均75.1%のスコアを記録し、従来の最先端モデルを上回りました。3)特に、テキスト中心VQAデータセットのスケーリングにおいて観察された現象は、指示チューニングデータ量の指数関数的な増加がモデルの性能向上に直接比例するという明確なパターンを明らかにし、データセットの規模の必要性とSquare-10Mの高品質を裏付けました。
English
Text-centric visual question answering (VQA) has made great strides with the
development of Multimodal Large Language Models (MLLMs), yet open-source models
still fall short of leading models like GPT4V and Gemini, partly due to a lack
of extensive, high-quality instruction tuning data. To this end, we introduce a
new approach for creating a massive, high-quality instruction-tuning dataset,
Square-10M, which is generated using closed-source MLLMs. The data construction
process, termed Square, consists of four steps: Self-Questioning, Answering,
Reasoning, and Evaluation. Our experiments with Square-10M led to three key
findings: 1) Our model, TextSquare, considerably surpasses open-source previous
state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%).
It even outperforms top-tier models like GPT4V and Gemini in 6 of 10
text-centric benchmarks. 2) Additionally, we demonstrate the critical role of
VQA reasoning data in offering comprehensive contextual insights for specific
questions. This not only improves accuracy but also significantly mitigates
hallucinations. Specifically, TextSquare scores an average of 75.1% across four
general VQA and hallucination evaluation datasets, outperforming previous
state-of-the-art models. 3) Notably, the phenomenon observed in scaling
text-centric VQA datasets reveals a vivid pattern: the exponential increase of
instruction tuning data volume is directly proportional to the improvement in
model performance, thereby validating the necessity of the dataset scale and
the high quality of Square-10M.Summary
AI-Generated Summary