MIBench: 複数画像に対するマルチモーダル大規模言語モデルの評価
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
著者: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
要旨
大規模言語モデル(LLM)の力を基盤として、近年、多数のマルチモーダル大規模言語モデル(MLLM)が、さまざまな視覚言語タスクにおいて複数のベンチマークで顕著な性能を達成しています。しかし、既存のMLLMとベンチマークのほとんどは、単一画像入力シナリオに焦点を当てており、現実的な複数画像を扱う際のMLLMの性能は十分に検討されていません。一部のベンチマークでは複数画像を考慮していますが、その評価次元とサンプルは非常に限られています。そこで、本論文では、複数画像シナリオにおけるMLLMの細粒度能力を包括的に評価するための新しいベンチマーク「MIBench」を提案します。具体的には、MIBenchは複数画像能力を3つのシナリオに分類します:複数画像指示(MII)、マルチモーダル知識探索(MKS)、マルチモーダルインコンテキスト学習(MIC)です。そして、13のタスクと合計13Kの注釈付きサンプルを構築します。データ構築において、MIIとMKSについては、手動注釈から正解オプションを抽出し、挑戦的なディストラクタを作成して多肢選択問題を取得します。MICについては、詳細な評価を可能にするために、4つのサブタスクを設定し、元のデータセットをインコンテキスト学習形式に変換します。提案されたMIBench上で、いくつかのオープンソースMLLMとクローズドソースMLLMを評価します。結果は、現在のモデルが単一画像タスクでは優れているものの、複数画像入力に直面した場合、細粒度の知覚の混乱、複数画像推論の限界、不安定なインコンテキスト学習などの重大な欠点を示すことを明らかにしています。MIBenchの注釈付きデータは、https://huggingface.co/datasets/StarBottle/MIBench で利用可能です。
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.Summary
AI-Generated Summary