MEGA-Bench: Масштабирование мультимодальной оценки на более чем 500 задач реального мира
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
October 14, 2024
Авторы: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI
Аннотация
Мы представляем MEGA-Bench, набор оценочных задач, который масштабирует мультимодальную оценку на более чем 500 задач реального мира, чтобы решить высокую гетерогенность повседневного использования конечными пользователями. Наша цель - оптимизировать набор высококачественных образцов данных, охватывающих широкий и разнообразный набор мультимодальных задач, обеспечивая при этом экономичную и точную оценку модели. В частности, мы собрали 505 реалистичных задач, охватывающих более 8 000 образцов от 16 экспертных аннотаторов, чтобы широко охватить пространство мультимодальных задач. Вместо объединения этих проблем в стандартные множественного выбора вопросы (как MMMU, MMBench и MMT-Bench), мы принимаем широкий спектр форматов вывода, таких как числа, фразы, код, \LaTeX, координаты, JSON, свободная форма и т. д. Для адаптации к этим форматам мы разработали более 40 метрик для оценки этих задач. В отличие от существующих эталонов, MEGA-Bench предлагает доклад о возможностях с тонкой настройкой по нескольким измерениям (например, приложение, тип ввода, формат вывода, уровень навыков), позволяя пользователям взаимодействовать и визуализировать возможности модели в глубину. Мы оцениваем широкий спектр передовых моделей видео-языка на MEGA-Bench, чтобы понять их возможности по этим измерениям.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation
to over 500 real-world tasks, to address the highly heterogeneous daily use
cases of end users. Our objective is to optimize for a set of high-quality data
samples that cover a highly diverse and rich set of multimodal tasks, while
enabling cost-effective and accurate model evaluation. In particular, we
collected 505 realistic tasks encompassing over 8,000 samples from 16 expert
annotators to extensively cover the multimodal task space. Instead of unifying
these problems into standard multi-choice questions (like MMMU, MMBench, and
MMT-Bench), we embrace a wide range of output formats like numbers, phrases,
code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats,
we developed over 40 metrics to evaluate these tasks. Unlike existing
benchmarks, MEGA-Bench offers a fine-grained capability report across multiple
dimensions (e.g., application, input type, output format, skill), allowing
users to interact with and visualize model capabilities in depth. We evaluate a
wide variety of frontier vision-language models on MEGA-Bench to understand
their capabilities across these dimensions.Summary
AI-Generated Summary