ChatPaper.aiChatPaper

MLLMsベンチマークのための冗長性原則

Redundancy Principles for MLLMs Benchmarks

January 20, 2025
著者: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI

要旨

マルチモダリティ大規模言語モデル(MLLMs)の急速なイテレーションと分野の進化する要求により、毎年生産されるベンチマークの数は数百に急増しています。急速な成長は、ベンチマーク間で重要な冗長性が生じることを避けられません。そのため、現在の冗長性を批判的に評価し、効果的なMLLMベンチマークの構築のためのターゲットとなる原則を提案することが重要です。本論文では、3つの主要な観点から冗長性に焦点を当てます:1)ベンチマークの能力次元の冗長性、2)テスト質問の数の冗長性、および3)特定の領域内でのベンチマーク間の相互冗長性。20以上のベンチマークにわたる数百のMLLMのパフォーマンスを包括的に分析することで、既存のMLLM評価に存在する冗長性のレベルを定量的に測定し、MLLMベンチマークの将来の開発を導く貴重な洞察を提供し、冗長性の問題を効果的に洗練し対処するための戦略を提供します。
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and the evolving demands of the field, the number of benchmarks produced annually has surged into the hundreds. The rapid growth has inevitably led to significant redundancy among benchmarks. Therefore, it is crucial to take a step back and critically assess the current state of redundancy and propose targeted principles for constructing effective MLLM benchmarks. In this paper, we focus on redundancy from three key perspectives: 1) Redundancy of benchmark capability dimensions, 2) Redundancy in the number of test questions, and 3) Cross-benchmark redundancy within specific domains. Through the comprehensive analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we aim to quantitatively measure the level of redundancy lies in existing MLLM evaluations, provide valuable insights to guide the future development of MLLM benchmarks, and offer strategies to refine and address redundancy issues effectively.

Summary

AI-Generated Summary

PDF302January 27, 2025