MEGA-Bench: Schaalvergroting van multimodale evaluatie naar meer dan 500 taken in de echte wereld
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
October 14, 2024
Auteurs: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI
Samenvatting
We presenteren MEGA-Bench, een evaluatiesuite die multimodale evaluatie schaalt naar meer dan 500 real-world taken, om de zeer heterogene dagelijkse gebruiksscenario's van eindgebruikers aan te pakken. Ons doel is om te optimaliseren voor een set van hoogwaardige gegevensmonsters die een zeer diverse en rijke set multimodale taken bestrijken, terwijl we kosteneffectieve en nauwkeurige model evaluatie mogelijk maken. In het bijzonder hebben we 505 realistische taken verzameld die meer dan 8.000 monsters omvatten van 16 expert annotatoren om het multimodale takenlandschap uitgebreid te bestrijken. In plaats van deze problemen te unificeren in standaard meerkeuzevragen (zoals MMMU, MMBench en MMT-Bench), omarmen we een breed scala aan outputformaten zoals getallen, zinnen, code, \LaTeX, coördinaten, JSON, vrije vorm, enz. Om deze formaten te accommoderen, hebben we meer dan 40 metrieken ontwikkeld om deze taken te evalueren. In tegenstelling tot bestaande benchmarks, biedt MEGA-Bench een gedetailleerd capaciteitsrapport over meerdere dimensies (bijv. toepassing, invoertype, outputformaat, vaardigheid), waardoor gebruikers diepgaand kunnen interacteren met en visualiseren van modelcapaciteiten. We evalueren een breed scala aan voorhoede visie-taalmodellen op MEGA-Bench om hun capaciteiten over deze dimensies te begrijpen.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation
to over 500 real-world tasks, to address the highly heterogeneous daily use
cases of end users. Our objective is to optimize for a set of high-quality data
samples that cover a highly diverse and rich set of multimodal tasks, while
enabling cost-effective and accurate model evaluation. In particular, we
collected 505 realistic tasks encompassing over 8,000 samples from 16 expert
annotators to extensively cover the multimodal task space. Instead of unifying
these problems into standard multi-choice questions (like MMMU, MMBench, and
MMT-Bench), we embrace a wide range of output formats like numbers, phrases,
code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats,
we developed over 40 metrics to evaluate these tasks. Unlike existing
benchmarks, MEGA-Bench offers a fine-grained capability report across multiple
dimensions (e.g., application, input type, output format, skill), allowing
users to interact with and visualize model capabilities in depth. We evaluate a
wide variety of frontier vision-language models on MEGA-Bench to understand
their capabilities across these dimensions.Summary
AI-Generated Summary