ChatPaper.aiChatPaper

Principes de redondance pour les benchmarks des MLLMs

Redundancy Principles for MLLMs Benchmarks

January 20, 2025
Auteurs: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI

Résumé

Avec l'itération rapide des Modèles de Langage Multimodaux de Grande Taille (MLLMs) et les exigences évolutives du domaine, le nombre de références produites annuellement a explosé pour atteindre des centaines. Cette croissance rapide a inévitablement entraîné une redondance significative parmi les références. Il est donc crucial de prendre du recul et d'évaluer de manière critique l'état actuel de la redondance, et de proposer des principes ciblés pour la construction de références MLLM efficaces. Dans cet article, nous nous concentrons sur la redondance selon trois perspectives clés : 1) la redondance des dimensions de capacité des références, 2) la redondance dans le nombre de questions de test, et 3) la redondance entre références au sein de domaines spécifiques. À travers une analyse approfondie de la performance de centaines de MLLMs sur plus de 20 références, nous visons à mesurer quantitativement le niveau de redondance présent dans les évaluations de MLLM existantes, à fournir des perspectives précieuses pour orienter le futur développement des références MLLM, et à proposer des stratégies pour affiner et résoudre efficacement les problèmes de redondance.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and the evolving demands of the field, the number of benchmarks produced annually has surged into the hundreds. The rapid growth has inevitably led to significant redundancy among benchmarks. Therefore, it is crucial to take a step back and critically assess the current state of redundancy and propose targeted principles for constructing effective MLLM benchmarks. In this paper, we focus on redundancy from three key perspectives: 1) Redundancy of benchmark capability dimensions, 2) Redundancy in the number of test questions, and 3) Cross-benchmark redundancy within specific domains. Through the comprehensive analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we aim to quantitatively measure the level of redundancy lies in existing MLLM evaluations, provide valuable insights to guide the future development of MLLM benchmarks, and offer strategies to refine and address redundancy issues effectively.

Summary

AI-Generated Summary

PDF302January 27, 2025