TP-Eval: Раскрытие потенциала мультимодальных языковых моделей с помощью настройки запросов.
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts
October 23, 2024
Авторы: Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang
cs.AI
Аннотация
Недавно мультимодальные модели больших языков (MLLM) привлекли много внимания своими впечатляющими возможностями. Оценка MLLM становится критической для анализа характеристик MLLM и предоставления ценных идей. Однако текущие бенчмарки не учитывают проблему чувствительности к подсказкам - незначительные изменения в подсказках могут привести к значительным колебаниям в производительности. Таким образом, неправильные подсказки могут затмить возможности моделей, недооценивая их производительность. Более того, разные модели имеют разные предпочтения к разным подсказкам, и, следовательно, использование одной и той же подсказки для всех моделей вызовет смещение в оценке. В данной работе анализируется данное недостаток в существующих бенчмарках и далее представляется новая система оценки под названием TP-Eval, которая вводит метод настройки подсказок для уменьшения смещений в оценке и раскрытия потенциала моделей. TP-Eval будет переписывать исходные подсказки на различные настроенные подсказки для разных моделей. В частности, мы предлагаем некоторые хорошо разработанные модули для настройки подсказок, адаптированные к сценарию оценки MLLM. Обширные эксперименты демонстрируют эффективность нашего подхода в выявлении возможностей моделей, и TP-Eval должен принести пользу сообществу в разработке более всесторонних и убедительных бенчмарков оценки MLLM.
English
Recently, multimodal large language models (MLLMs) have received much
attention for their impressive capabilities. The evaluation of MLLMs is
becoming critical to analyzing attributes of MLLMs and providing valuable
insights. However, current benchmarks overlook the problem of prompt
sensitivity - minor prompt variations may lead to significant performance
fluctuations. Thus, inappropriate prompts may obscure the models' capabilities,
underestimating the models' performance. Moreover, different models have
different preferences for different prompts, and thus, using the same prompt
for all models will cause evaluation bias. This paper analyzes this deficiency
in existing benchmarks and further introduces a new evaluation framework named
TP-Eval, which introduces a prompt customization method to reduce evaluation
biases and tap models' potential. TP-Eval will rewrite the original prompts to
different customized prompts for different models. In particular, we propose
some well-designed modules for prompt customization tailored to the scenario of
MLLM evaluation. Extensive experiments demonstrate the effectiveness of our
approach to uncovering models' capabilities, and TP-Eval should benefit the
community in developing more comprehensive and convincing MLLM evaluation
benchmarks.Summary
AI-Generated Summary