ChatPaper.aiChatPaper

MEGA-Bench: Scalare la Valutazione Multimodale a oltre 500 Compiti del Mondo Reale

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

October 14, 2024
Autori: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI

Abstract

Presentiamo MEGA-Bench, una suite di valutazione che scala la valutazione multimodale a oltre 500 compiti del mondo reale, per affrontare i casi d'uso altamente eterogenei degli utenti finali. Il nostro obiettivo è ottimizzare un insieme di campioni di dati di alta qualità che coprano una vasta gamma di compiti multimodali, consentendo nel contempo una valutazione dei modelli economica e accurata. In particolare, abbiamo raccolto 505 compiti realistici che comprendono oltre 8.000 campioni da 16 annotatori esperti per coprire ampiamente lo spazio dei compiti multimodali. Invece di unificare questi problemi in domande a scelta multipla standard (come MMMU, MMBench e MMT-Bench), abbracciamo una vasta gamma di formati di output come numeri, frasi, codice, \LaTeX, coordinate, JSON, libero, ecc. Per adattarsi a questi formati, abbiamo sviluppato oltre 40 metriche per valutare questi compiti. A differenza dei benchmark esistenti, MEGA-Bench offre un rapporto di capacità dettagliato su più dimensioni (ad esempio, applicazione, tipo di input, formato di output, competenza), consentendo agli utenti di interagire e visualizzare le capacità del modello in profondità. Valutiamo una vasta gamma di modelli di visione-linguaggio all'avanguardia su MEGA-Bench per comprendere le loro capacità attraverso queste dimensioni.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation to over 500 real-world tasks, to address the highly heterogeneous daily use cases of end users. Our objective is to optimize for a set of high-quality data samples that cover a highly diverse and rich set of multimodal tasks, while enabling cost-effective and accurate model evaluation. In particular, we collected 505 realistic tasks encompassing over 8,000 samples from 16 expert annotators to extensively cover the multimodal task space. Instead of unifying these problems into standard multi-choice questions (like MMMU, MMBench, and MMT-Bench), we embrace a wide range of output formats like numbers, phrases, code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats, we developed over 40 metrics to evaluate these tasks. Unlike existing benchmarks, MEGA-Bench offers a fine-grained capability report across multiple dimensions (e.g., application, input type, output format, skill), allowing users to interact with and visualize model capabilities in depth. We evaluate a wide variety of frontier vision-language models on MEGA-Bench to understand their capabilities across these dimensions.

Summary

AI-Generated Summary

PDF393November 16, 2024