SEED-Bench-2-Plus: テキスト豊富な視覚理解によるマルチモーダル大規模言語モデルのベンチマーキング
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
著者: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
要旨
テキストが豊富な視覚コンテンツを理解することは、マルチモーダル大規模言語モデル(MLLM)の実用的な応用において極めて重要です。なぜなら、テキストが豊富なシナリオは現実世界で広く見られ、画像に埋め込まれた大量のテキストが特徴となっているからです。最近、驚くべき汎用性を持つMLLMの登場により、MLLMに期待される水準が引き上げられました。しかし、テキストが豊富なシナリオにおけるMLLMの能力は、現行のMLLMベンチマークが主に一般的な視覚理解の評価に焦点を当てているため、包括的かつ客観的に評価されていません。本研究では、MLLMのテキストが豊富な視覚理解を評価するために特別に設計されたベンチマーク「SEED-Bench-2-Plus」を紹介します。このベンチマークは、正確な人間のアノテーションを伴う2.3Kの多肢選択問題で構成され、チャート、地図、ウェブの3つの広範なカテゴリにまたがっています。各カテゴリは、その固有の複雑さと多様性により、現実世界のテキストが豊富な環境を効果的にシミュレートします。さらに、GPT-4V、Gemini-Pro-Vision、Claude-3-Opusを含む34の主要なMLLMを対象に徹底的な評価を行い、テキストが豊富な視覚理解におけるMLLMの現状の限界を強調します。本研究が既存のMLLMベンチマークに貴重な追加情報を提供し、テキストが豊富な視覚理解の分野におけるさらなる研究にインスピレーションを与えることを願っています。データセットと評価コードはhttps://github.com/AILab-CVC/SEED-Benchでアクセス可能です。
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.Summary
AI-Generated Summary