ConTextual: 大規模マルチモーダルモデルにおける文脈依存のテキスト豊富な視覚的推論の評価
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
著者: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
要旨
近年のAIの進歩により、テキストと画像コンテンツを統合的に推論する複雑なタスク(例:公共の場での地図ナビゲーション)を処理可能な大規模マルチモーダルモデル(LMM)が開発されています。本論文では、LMMの文脈を考慮したテキスト豊富な視覚的推論能力を評価するために設計された新しいベンチマーク「ConTextual」を紹介します。ConTextualは、時間の読み取り、ナビゲーション、ショッピングなど多様な実世界のシナリオを重視し、テキストと視覚要素の相互作用に対する深い理解を求めます。我々の調査結果によると、最高性能のLMMであるGPT-4V(ision)と人間の能力との間には30.8%の大きな性能差があり、文脈を考慮したテキスト豊富な視覚的推論において改善の余地が大きいことが示されました。特に、GPT-4Vはミームや引用の解釈といった抽象的なカテゴリーでは優れているものの、全体的な性能は人間に及ばないことが明らかになりました。人間による評価に加えて、GPT-4を用いた自動評価指標も採用し、同様の性能差の傾向を確認しました。さらに、多様な視覚的文脈にわたる詳細な評価と質的分析を行い、今後のLMM設計の進展に向けた堅牢なフレームワークを提供します。
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/