MEGA-Bench : Mise à l'échelle de l'évaluation multimodale à plus de 500 tâches du monde réel
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
October 14, 2024
Auteurs: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI
Résumé
Nous présentons MEGA-Bench, une suite d'évaluation qui étend l'évaluation multimodale à plus de 500 tâches du monde réel, afin de répondre aux cas d'utilisation quotidiens hautement hétérogènes des utilisateurs finaux. Notre objectif est d'optimiser un ensemble d'échantillons de données de haute qualité couvrant un ensemble très diversifié et riche de tâches multimodales, tout en permettant une évaluation de modèle rentable et précise. En particulier, nous avons collecté 505 tâches réalistes englobant plus de 8 000 échantillons provenant de 16 annotateurs experts pour couvrir de manière exhaustive l'espace des tâches multimodales. Au lieu d'unifier ces problèmes en questions à choix multiples standard (comme MMMU, MMBench et MMT-Bench), nous adoptons une large gamme de formats de sortie tels que des nombres, des phrases, du code, \LaTeX, des coordonnées, JSON, libre, etc. Pour accommoder ces formats, nous avons développé plus de 40 métriques pour évaluer ces tâches. Contrairement aux référentiels existants, MEGA-Bench offre un rapport de capacité détaillé à travers de multiples dimensions (par exemple, application, type d'entrée, format de sortie, compétence), permettant aux utilisateurs d'interagir avec les capacités du modèle et de les visualiser en profondeur. Nous évaluons une grande variété de modèles de vision-langage de pointe sur MEGA-Bench pour comprendre leurs capacités à travers ces dimensions.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation
to over 500 real-world tasks, to address the highly heterogeneous daily use
cases of end users. Our objective is to optimize for a set of high-quality data
samples that cover a highly diverse and rich set of multimodal tasks, while
enabling cost-effective and accurate model evaluation. In particular, we
collected 505 realistic tasks encompassing over 8,000 samples from 16 expert
annotators to extensively cover the multimodal task space. Instead of unifying
these problems into standard multi-choice questions (like MMMU, MMBench, and
MMT-Bench), we embrace a wide range of output formats like numbers, phrases,
code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats,
we developed over 40 metrics to evaluate these tasks. Unlike existing
benchmarks, MEGA-Bench offers a fine-grained capability report across multiple
dimensions (e.g., application, input type, output format, skill), allowing
users to interact with and visualize model capabilities in depth. We evaluate a
wide variety of frontier vision-language models on MEGA-Bench to understand
their capabilities across these dimensions.Summary
AI-Generated Summary