TP-Eval: Desbloquear el potencial de los LLMs Multimodales en la Evaluación mediante la Personalización de las Indicaciones
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts
October 23, 2024
Autores: Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang
cs.AI
Resumen
Recientemente, los modelos de lenguaje multimodales a gran escala (MLLMs) han recibido mucha atención por sus impresionantes capacidades. La evaluación de los MLLMs se está volviendo crítica para analizar atributos de los MLLMs y proporcionar perspectivas valiosas. Sin embargo, los benchmarks actuales pasan por alto el problema de la sensibilidad a la consigna: variaciones menores en la consigna pueden llevar a fluctuaciones significativas en el rendimiento. Por lo tanto, consignas inapropiadas pueden oscurecer las capacidades de los modelos, subestimando su rendimiento. Además, diferentes modelos tienen preferencias distintas por diferentes consignas, por lo que utilizar la misma consigna para todos los modelos causará sesgos en la evaluación. Este documento analiza esta deficiencia en los benchmarks existentes e introduce un nuevo marco de evaluación llamado TP-Eval, que presenta un método de personalización de consignas para reducir los sesgos en la evaluación y aprovechar el potencial de los modelos. TP-Eval reescribirá las consignas originales en diferentes consignas personalizadas para distintos modelos. En particular, proponemos algunos módulos bien diseñados para la personalización de consignas adaptados al escenario de evaluación de MLLM. Experimentos extensos demuestran la efectividad de nuestro enfoque para descubrir las capacidades de los modelos, y TP-Eval debería beneficiar a la comunidad en el desarrollo de benchmarks de evaluación de MLLM más completos y convincentes.
English
Recently, multimodal large language models (MLLMs) have received much
attention for their impressive capabilities. The evaluation of MLLMs is
becoming critical to analyzing attributes of MLLMs and providing valuable
insights. However, current benchmarks overlook the problem of prompt
sensitivity - minor prompt variations may lead to significant performance
fluctuations. Thus, inappropriate prompts may obscure the models' capabilities,
underestimating the models' performance. Moreover, different models have
different preferences for different prompts, and thus, using the same prompt
for all models will cause evaluation bias. This paper analyzes this deficiency
in existing benchmarks and further introduces a new evaluation framework named
TP-Eval, which introduces a prompt customization method to reduce evaluation
biases and tap models' potential. TP-Eval will rewrite the original prompts to
different customized prompts for different models. In particular, we propose
some well-designed modules for prompt customization tailored to the scenario of
MLLM evaluation. Extensive experiments demonstrate the effectiveness of our
approach to uncovering models' capabilities, and TP-Eval should benefit the
community in developing more comprehensive and convincing MLLM evaluation
benchmarks.Summary
AI-Generated Summary