MEGA-Bench: Escalando la Evaluación Multimodal a más de 500 Tareas del Mundo Real
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
October 14, 2024
Autores: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI
Resumen
Presentamos MEGA-Bench, un conjunto de evaluación que amplía la evaluación multimodal a más de 500 tareas del mundo real, para abordar los casos de uso altamente heterogéneos de los usuarios finales. Nuestro objetivo es optimizar un conjunto de muestras de datos de alta calidad que cubran una amplia y diversa gama de tareas multimodales, al tiempo que permitan una evaluación de modelos precisa y rentable. En particular, recopilamos 505 tareas realistas que abarcan más de 8,000 muestras de 16 anotadores expertos para cubrir extensamente el espacio de tareas multimodales. En lugar de unificar estos problemas en preguntas de opción múltiple estándar (como MMMU, MMBench y MMT-Bench), adoptamos una amplia gama de formatos de salida como números, frases, código, \LaTeX, coordenadas, JSON, formato libre, etc. Para dar cabida a estos formatos, desarrollamos más de 40 métricas para evaluar estas tareas. A diferencia de los benchmarks existentes, MEGA-Bench ofrece un informe detallado de capacidades en múltiples dimensiones (por ejemplo, aplicación, tipo de entrada, formato de salida, habilidad), lo que permite a los usuarios interactuar y visualizar las capacidades del modelo en profundidad. Evaluamos una amplia variedad de modelos de vanguardia de visión y lenguaje en MEGA-Bench para comprender sus capacidades en estas dimensiones.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation
to over 500 real-world tasks, to address the highly heterogeneous daily use
cases of end users. Our objective is to optimize for a set of high-quality data
samples that cover a highly diverse and rich set of multimodal tasks, while
enabling cost-effective and accurate model evaluation. In particular, we
collected 505 realistic tasks encompassing over 8,000 samples from 16 expert
annotators to extensively cover the multimodal task space. Instead of unifying
these problems into standard multi-choice questions (like MMMU, MMBench, and
MMT-Bench), we embrace a wide range of output formats like numbers, phrases,
code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats,
we developed over 40 metrics to evaluate these tasks. Unlike existing
benchmarks, MEGA-Bench offers a fine-grained capability report across multiple
dimensions (e.g., application, input type, output format, skill), allowing
users to interact with and visualize model capabilities in depth. We evaluate a
wide variety of frontier vision-language models on MEGA-Bench to understand
their capabilities across these dimensions.Summary
AI-Generated Summary