Принципы избыточности для бенчмарков MLLM
Redundancy Principles for MLLMs Benchmarks
January 20, 2025
Авторы: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI
Аннотация
С быстрым развитием Многомодальных Больших Языковых Моделей (MLLM) и изменяющимися требованиями отрасли количество ежегодно создаваемых бенчмарков взлетело на сотни. Быстрый рост неизбежно привел к значительной избыточности среди бенчмарков. Поэтому крайне важно отойти на шаг назад, критически оценить текущее состояние избыточности и предложить целенаправленные принципы для создания эффективных бенчмарков MLLM. В данной статье мы сосредотачиваемся на избыточности с трех ключевых точек зрения: 1) Избыточность измерений возможностей бенчмарка, 2) Избыточность в количестве тестовых вопросов и 3) Избыточность между бенчмарками в конкретных областях. Через всесторонний анализ производительности сотен MLLM на более чем 20 бенчмарках мы стремимся количественно измерить уровень избыточности, присутствующей в существующих оценках MLLM, предоставить ценные идеи для направления будущего развития бенчмарков MLLM и предложить стратегии для эффективного устранения проблем избыточности.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and
the evolving demands of the field, the number of benchmarks produced annually
has surged into the hundreds. The rapid growth has inevitably led to
significant redundancy among benchmarks. Therefore, it is crucial to take a
step back and critically assess the current state of redundancy and propose
targeted principles for constructing effective MLLM benchmarks. In this paper,
we focus on redundancy from three key perspectives: 1) Redundancy of benchmark
capability dimensions, 2) Redundancy in the number of test questions, and 3)
Cross-benchmark redundancy within specific domains. Through the comprehensive
analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we
aim to quantitatively measure the level of redundancy lies in existing MLLM
evaluations, provide valuable insights to guide the future development of MLLM
benchmarks, and offer strategies to refine and address redundancy issues
effectively.Summary
AI-Generated Summary