ProBench:オープンエンドなマルチドメイン専門タスクにおけるマルチモーダル基盤モデルの評価
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
March 10, 2025
著者: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI
要旨
専門家レベルのマルチモーダルタスクの解決は、汎用人工知能に向けた重要なマイルストーンである。マルチモーダル大規模言語モデル(MLLM)の能力が向上し続ける中、このような高度なマルチモーダル知能の評価は必要でありながらも困難な課題となっている。本研究では、専門知識と高度な推論を必要とするオープンエンドのユーザークエリを対象としたベンチマーク「ProBench」を提案する。ProBenchは、専門家が日常の生産性ニーズに基づいて独立して提出した4,000の高品質なサンプルで構成されており、科学、芸術、人文、コーディング、数学、クリエイティブライティングなど10の分野と56のサブ分野にまたがっている。実験的には、MLLM-as-a-Judgeを用いて24の最新モデルを評価・比較した。その結果、最良のオープンソースモデルはプロプライエタリモデルに匹敵するものの、ProBenchは視覚的知覚、テキスト理解、ドメイン知識、高度な推論において大きな課題を提示しており、今後のマルチモーダルAI研究の方向性を示す貴重な知見を提供している。
English
Solving expert-level multimodal tasks is a key milestone towards general
intelligence. As the capabilities of multimodal large language models (MLLMs)
continue to improve, evaluation of such advanced multimodal intelligence
becomes necessary yet challenging. In this work, we introduce ProBench, a
benchmark of open-ended user queries that require professional expertise and
advanced reasoning. ProBench consists of 4,000 high-quality samples
independently submitted by professionals based on their daily productivity
demands. It spans across 10 fields and 56 sub-fields, including science, arts,
humanities, coding, mathematics, and creative writing. Experimentally, we
evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal
that although the best open-source models rival the proprietary ones, ProBench
presents significant challenges in visual perception, textual understanding,
domain knowledge and advanced reasoning, thus providing valuable directions for
future multimodal AI research efforts.Summary
AI-Generated Summary