ChatPaper.aiChatPaper

Princípios de Redundância para Avaliações de MLLMs

Redundancy Principles for MLLMs Benchmarks

January 20, 2025
Autores: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI

Resumo

Com a rápida iteração de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e as demandas em evolução do campo, o número de benchmarks produzidos anualmente disparou para centenas. O crescimento rápido inevitavelmente resultou em uma redundância significativa entre os benchmarks. Portanto, é crucial dar um passo atrás e avaliar criticamente o estado atual da redundância e propor princípios direcionados para a construção de benchmarks MLLM eficazes. Neste artigo, focamos na redundância a partir de três perspectivas-chave: 1) Redundância das dimensões de capacidade dos benchmarks, 2) Redundância no número de perguntas de teste e 3) Redundância entre benchmarks dentro de domínios específicos. Através da análise abrangente do desempenho de centenas de MLLMs em mais de 20 benchmarks, temos como objetivo mensurar quantitativamente o nível de redundância presente nas avaliações de MLLM existentes, fornecer insights valiosos para orientar o desenvolvimento futuro de benchmarks MLLM e oferecer estratégias para refinar e abordar efetivamente as questões de redundância.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and the evolving demands of the field, the number of benchmarks produced annually has surged into the hundreds. The rapid growth has inevitably led to significant redundancy among benchmarks. Therefore, it is crucial to take a step back and critically assess the current state of redundancy and propose targeted principles for constructing effective MLLM benchmarks. In this paper, we focus on redundancy from three key perspectives: 1) Redundancy of benchmark capability dimensions, 2) Redundancy in the number of test questions, and 3) Cross-benchmark redundancy within specific domains. Through the comprehensive analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we aim to quantitatively measure the level of redundancy lies in existing MLLM evaluations, provide valuable insights to guide the future development of MLLM benchmarks, and offer strategies to refine and address redundancy issues effectively.

Summary

AI-Generated Summary

PDF302January 27, 2025