マルチモーダル大規模言語モデルの視覚的テキストグラウンディングに向けて
Towards Visual Text Grounding of Multimodal Large Language Model
April 7, 2025
著者: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の進化が進んでいるにもかかわらず、特に文書のようなテキスト豊富な画像における視覚的テキストのグラウンディングにおいて、無視できない限界が残っています。スキャンされたフォームやインフォグラフィックなどの文書画像は、その複雑なレイアウトとテキスト内容により、重要な課題を浮き彫りにしています。しかし、現在のベンチマークはこれらの課題に十分に対応しておらず、主に自然画像における視覚的グラウンディングに焦点を当てており、テキスト豊富な文書画像には対応していません。そこで、このギャップを埋めるために、我々はTRIGという新しいタスクを導入し、文書質問応答におけるMLLMのテキスト豊富な画像グラウンディング能力をベンチマークし、改善するための新たに設計された指示データセットを提供します。具体的には、OCR-LLM-人間のインタラクションパイプラインを提案し、800の手動アノテーションされた質問-回答ペアをベンチマークとして、また4つの多様なデータセットに基づく90ドルの大規模な合成データセットを作成しました。提案したベンチマークに対する様々なMLLMの包括的評価により、テキスト豊富な画像におけるグラウンディング能力の重大な限界が明らかになりました。さらに、一般的な指示チューニングとプラグアンドプレイの効率的な埋め込みに基づく2つのシンプルで効果的なTRIG手法を提案します。合成データセットでMLLMをファインチューニングすることにより、空間推論とグラウンディング能力が有望に向上します。
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a
non-neglectable limitation remains in their struggle with visual text
grounding, especially in text-rich images of documents. Document images, such
as scanned forms and infographics, highlight critical challenges due to their
complex layouts and textual content. However, current benchmarks do not fully
address these challenges, as they mostly focus on visual grounding on natural
images, rather than text-rich document images. Thus, to bridge this gap, we
introduce TRIG, a novel task with a newly designed instruction dataset for
benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs
in document question-answering. Specifically, we propose an OCR-LLM-human
interaction pipeline to create 800 manually annotated question-answer pairs as
a benchmark and a large-scale training set of 90$ synthetic data based on four
diverse datasets. A comprehensive evaluation of various MLLMs on our proposed
benchmark exposes substantial limitations in their grounding capability on
text-rich images. In addition, we propose two simple and effective TRIG methods
based on general instruction tuning and plug-and-play efficient embedding,
respectively. By finetuning MLLMs on our synthetic dataset, they promisingly
improve spatial reasoning and grounding capabilities.Summary
AI-Generated Summary