ChatPaper.aiChatPaper

TP-Eval: Explorando o Potencial dos LLMs Multimodais na Avaliação por Meio da Personalização de Prompters

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

October 23, 2024
Autores: Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang
cs.AI

Resumo

Recentemente, os modelos de linguagem multimodais de grande escala (MLLMs) têm recebido muita atenção por suas impressionantes capacidades. A avaliação dos MLLMs está se tornando crítica para analisar atributos dos MLLMs e fornecer insights valiosos. No entanto, os benchmarks atuais ignoram o problema da sensibilidade à prompt - variações mínimas na prompt podem levar a flutuações significativas no desempenho. Assim, prompts inadequadas podem obscurecer as capacidades dos modelos, subestimando o desempenho dos mesmos. Além disso, diferentes modelos têm preferências diferentes por diferentes prompts e, portanto, usar a mesma prompt para todos os modelos causará viés na avaliação. Este artigo analisa essa deficiência nos benchmarks existentes e introduz um novo framework de avaliação chamado TP-Eval, que apresenta um método de personalização de prompt para reduzir os viéses de avaliação e explorar o potencial dos modelos. O TP-Eval reescreverá as prompts originais em prompts personalizadas diferentes para diferentes modelos. Em particular, propomos alguns módulos bem projetados para personalização de prompt adaptados ao cenário de avaliação de MLLM. Experimentos extensivos demonstram a eficácia de nossa abordagem para descobrir as capacidades dos modelos, e o TP-Eval deve beneficiar a comunidade no desenvolvimento de benchmarks de avaliação de MLLM mais abrangentes e convincentes.
English
Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - minor prompt variations may lead to significant performance fluctuations. Thus, inappropriate prompts may obscure the models' capabilities, underestimating the models' performance. Moreover, different models have different preferences for different prompts, and thus, using the same prompt for all models will cause evaluation bias. This paper analyzes this deficiency in existing benchmarks and further introduces a new evaluation framework named TP-Eval, which introduces a prompt customization method to reduce evaluation biases and tap models' potential. TP-Eval will rewrite the original prompts to different customized prompts for different models. In particular, we propose some well-designed modules for prompt customization tailored to the scenario of MLLM evaluation. Extensive experiments demonstrate the effectiveness of our approach to uncovering models' capabilities, and TP-Eval should benefit the community in developing more comprehensive and convincing MLLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF71November 16, 2024