ChatPaper.aiChatPaper

MEGA-Bench: Skalierung der multimodalen Evaluation auf über 500 realen Aufgaben

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

October 14, 2024
Autoren: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI

Zusammenfassung

Wir präsentieren MEGA-Bench, eine Evaluierungssuite, die die multimodale Evaluierung auf über 500 realen Aufgaben skaliert, um den hochgradig heterogenen täglichen Anwendungsfällen von Endbenutzern gerecht zu werden. Unser Ziel ist es, eine Reihe hochwertiger Datensamples zu optimieren, die eine äußerst vielfältige und umfangreiche Reihe von multimodalen Aufgaben abdecken, während wir kosteneffiziente und präzise Modellbewertungen ermöglichen. Insbesondere haben wir 505 realistische Aufgaben gesammelt, die über 8.000 Samples von 16 Expertenannotatoren umfassen, um den multimodalen Aufgabenraum umfassend abzudecken. Anstatt diese Probleme in standardisierte Multiple-Choice-Fragen zu vereinheitlichen (wie MMMU, MMBench und MMT-Bench), umarmen wir eine Vielzahl von Ausgabeformaten wie Zahlen, Phrasen, Code, \LaTeX, Koordinaten, JSON, Freitext usw. Um diese Formate zu berücksichtigen, haben wir über 40 Metriken entwickelt, um diese Aufgaben zu bewerten. Im Gegensatz zu bestehenden Benchmarks bietet MEGA-Bench einen detaillierten Leistungsbericht über mehrere Dimensionen (z. B. Anwendung, Eingabetyp, Ausgabeformat, Fähigkeit), der es Benutzern ermöglicht, mit den Modellfähigkeiten in der Tiefe zu interagieren und sie zu visualisieren. Wir evaluieren eine Vielzahl von modernen Bild-Sprach-Modelle auf MEGA-Bench, um ihre Fähigkeiten über diese Dimensionen hinweg zu verstehen.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation to over 500 real-world tasks, to address the highly heterogeneous daily use cases of end users. Our objective is to optimize for a set of high-quality data samples that cover a highly diverse and rich set of multimodal tasks, while enabling cost-effective and accurate model evaluation. In particular, we collected 505 realistic tasks encompassing over 8,000 samples from 16 expert annotators to extensively cover the multimodal task space. Instead of unifying these problems into standard multi-choice questions (like MMMU, MMBench, and MMT-Bench), we embrace a wide range of output formats like numbers, phrases, code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats, we developed over 40 metrics to evaluate these tasks. Unlike existing benchmarks, MEGA-Bench offers a fine-grained capability report across multiple dimensions (e.g., application, input type, output format, skill), allowing users to interact with and visualize model capabilities in depth. We evaluate a wide variety of frontier vision-language models on MEGA-Bench to understand their capabilities across these dimensions.

Summary

AI-Generated Summary

PDF393November 16, 2024