MEGA-Bench: 実世界タスク500以上にスケーリングしたマルチモーダル評価
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
October 14, 2024
著者: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI
要旨
私たちは、MEGA-Benchを提案します。これは、500以上の実世界のタスクにスケーリングされた評価スイートであり、エンドユーザーの高度に異質な日常的な使用ケースに対応しています。私たちの目標は、高品質のデータサンプルセットを最適化し、多様で豊富な複数モーダルタスクをカバーする一方で、費用対効果の高い正確なモデル評価を実現することです。具体的には、16人の専門アノテーターから8,000以上のサンプルを含む505のリアルなタスクを収集し、複数モーダルタスク空間を包括的にカバーしています。MMMユーザ、MMBench、MMT-Benchのような標準的な多肢選択問題にこれらの問題を統合する代わりに、数字、フレーズ、コード、\LaTeX、座標、JSON、フリーフォームなど、幅広い出力形式を採用しています。これらの形式に対応するために、40以上のメトリクスを開発し、これらのタスクを評価しています。既存のベンチマークとは異なり、MEGA-Benchは、アプリケーション、入力タイプ、出力形式、スキルなど、複数の次元にわたる細かい能力レポートを提供し、ユーザーがモデルの能力を深くインタラクティブに理解し、視覚化できるようにしています。MEGA-Benchで、さまざまな最先端のビジョン言語モデルを評価し、これらの次元にわたる能力を理解しています。
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation
to over 500 real-world tasks, to address the highly heterogeneous daily use
cases of end users. Our objective is to optimize for a set of high-quality data
samples that cover a highly diverse and rich set of multimodal tasks, while
enabling cost-effective and accurate model evaluation. In particular, we
collected 505 realistic tasks encompassing over 8,000 samples from 16 expert
annotators to extensively cover the multimodal task space. Instead of unifying
these problems into standard multi-choice questions (like MMMU, MMBench, and
MMT-Bench), we embrace a wide range of output formats like numbers, phrases,
code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats,
we developed over 40 metrics to evaluate these tasks. Unlike existing
benchmarks, MEGA-Bench offers a fine-grained capability report across multiple
dimensions (e.g., application, input type, output format, skill), allowing
users to interact with and visualize model capabilities in depth. We evaluate a
wide variety of frontier vision-language models on MEGA-Bench to understand
their capabilities across these dimensions.Summary
AI-Generated Summary