ChatPaper.aiChatPaper

MEGA-Bench: Dimensionando a Avaliação Multimodal para mais de 500 Tarefas do Mundo Real

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

October 14, 2024
Autores: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI

Resumo

Apresentamos o MEGA-Bench, uma suíte de avaliação que amplia a avaliação multimodal para mais de 500 tarefas do mundo real, para lidar com os casos de uso altamente heterogêneos dos usuários finais. Nosso objetivo é otimizar um conjunto de amostras de dados de alta qualidade que cubram um conjunto altamente diversificado e rico de tarefas multimodais, ao mesmo tempo que possibilitam uma avaliação de modelo eficaz e precisa em termos de custo. Em particular, coletamos 505 tarefas realistas abrangendo mais de 8.000 amostras de 16 anotadores especialistas para cobrir extensivamente o espaço de tarefas multimodais. Em vez de unificar esses problemas em perguntas de múltipla escolha padrão (como MMMU, MMBench e MMT-Bench), abraçamos uma ampla gama de formatos de saída como números, frases, código, \LaTeX, coordenadas, JSON, livre, etc. Para acomodar esses formatos, desenvolvemos mais de 40 métricas para avaliar essas tarefas. Ao contrário de benchmarks existentes, o MEGA-Bench oferece um relatório de capacidades detalhado em várias dimensões (por exemplo, aplicação, tipo de entrada, formato de saída, habilidade), permitindo que os usuários interajam e visualizem as capacidades do modelo em profundidade. Avaliamos uma ampla variedade de modelos de visão-linguagem de ponta no MEGA-Bench para entender suas capacidades em relação a essas dimensões.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation to over 500 real-world tasks, to address the highly heterogeneous daily use cases of end users. Our objective is to optimize for a set of high-quality data samples that cover a highly diverse and rich set of multimodal tasks, while enabling cost-effective and accurate model evaluation. In particular, we collected 505 realistic tasks encompassing over 8,000 samples from 16 expert annotators to extensively cover the multimodal task space. Instead of unifying these problems into standard multi-choice questions (like MMMU, MMBench, and MMT-Bench), we embrace a wide range of output formats like numbers, phrases, code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats, we developed over 40 metrics to evaluate these tasks. Unlike existing benchmarks, MEGA-Bench offers a fine-grained capability report across multiple dimensions (e.g., application, input type, output format, skill), allowing users to interact with and visualize model capabilities in depth. We evaluate a wide variety of frontier vision-language models on MEGA-Bench to understand their capabilities across these dimensions.

Summary

AI-Generated Summary

PDF393November 16, 2024