MuirBench:堅牢なマルチ画像理解のための包括的ベンチマーク
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
June 13, 2024
著者: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI
要旨
私たちは、マルチモーダルLLMの堅牢な複数画像理解能力に焦点を当てた包括的なベンチマークであるMuirBenchを紹介します。MuirBenchは、シーン理解や順序付けなど12の多様な複数画像タスクで構成され、多視点や時間的関係など10のカテゴリーの複数画像関係を含んでいます。11,264枚の画像と2,600の多肢選択問題から成るMuirBenchは、信頼性の高い評価を行うために、各標準インスタンスと意味的に最小限の違いしかない未回答可能なバリアントをペアにして作成されています。最近の20のマルチモーダルLLMを評価した結果、GPT-4oやGemini Proのような最高性能のモデルでさえMuirBenchを解くのが難しく、それぞれ68.0%と49.3%の精度しか達成できませんでした。単一画像でトレーニングされたオープンソースのマルチモーダルLLMは、複数画像の問題にほとんど一般化できず、精度は33.3%を下回っています。これらの結果は、MuirBenchが単一画像を超えて見ることができるマルチモーダルLLMの開発をコミュニティに促す重要性を示しており、将来の改善のための潜在的な道筋を示唆しています。
English
We introduce MuirBench, a comprehensive benchmark that focuses on robust
multi-image understanding capabilities of multimodal LLMs. MuirBench consists
of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that
involve 10 categories of multi-image relations (e.g., multiview, temporal
relations). Comprising 11,264 images and 2,600 multiple-choice questions,
MuirBench is created in a pairwise manner, where each standard instance is
paired with an unanswerable variant that has minimal semantic differences, in
order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our
results reveal that even the best-performing models like GPT-4o and Gemini Pro
find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy.
Open-source multimodal LLMs trained on single images can hardly generalize to
multi-image questions, hovering below 33.3% in accuracy. These results
highlight the importance of MuirBench in encouraging the community to develop
multimodal LLMs that can look beyond a single image, suggesting potential
pathways for future improvements.Summary
AI-Generated Summary