TP-Eval: Sfrutta il potenziale dei LLM multimodali nell'valutazione personalizzando i prompt.

Abstract

Recentemente, i modelli multimodali di grandi dimensioni per il linguaggio (MLLM) hanno ricevuto molta attenzione per le loro impressionanti capacità. L'valutazione dei MLLM sta diventando cruciale per analizzare gli attributi dei MLLM e fornire preziose intuizioni. Tuttavia, i benchmark attuali trascurano il problema della sensibilità alla richiesta - variazioni minime della richiesta possono portare a significative fluttuazioni delle prestazioni. Di conseguenza, richieste inappropriati possono oscurare le capacità dei modelli, sottovalutando le prestazioni dei modelli. Inoltre, modelli diversi hanno preferenze diverse per diverse richieste e quindi, utilizzando la stessa richiesta per tutti i modelli causerà un bias di valutazione. Questo articolo analizza questa carenza nei benchmark esistenti e introduce ulteriormente un nuovo quadro di valutazione chiamato TP-Eval, che introduce un metodo di personalizzazione della richiesta per ridurre i bias di valutazione e sfruttare il potenziale dei modelli. TP-Eval riscriverà le richieste originali in diverse richieste personalizzate per modelli diversi. In particolare, proponiamo alcuni moduli ben progettati per la personalizzazione della richiesta adattati allo scenario di valutazione dei MLLM. Estesi esperimenti dimostrano l'efficacia del nostro approccio nel mettere in luce le capacità dei modelli, e TP-Eval dovrebbe beneficiare la comunità nello sviluppo di benchmark di valutazione dei MLLM più completi e convincenti.

English

Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - minor prompt variations may lead to significant performance fluctuations. Thus, inappropriate prompts may obscure the models' capabilities, underestimating the models' performance. Moreover, different models have different preferences for different prompts, and thus, using the same prompt for all models will cause evaluation bias. This paper analyzes this deficiency in existing benchmarks and further introduces a new evaluation framework named TP-Eval, which introduces a prompt customization method to reduce evaluation biases and tap models' potential. TP-Eval will rewrite the original prompts to different customized prompts for different models. In particular, we propose some well-designed modules for prompt customization tailored to the scenario of MLLM evaluation. Extensive experiments demonstrate the effectiveness of our approach to uncovering models' capabilities, and TP-Eval should benefit the community in developing more comprehensive and convincing MLLM evaluation benchmarks.

TP-Eval: Sfrutta il potenziale dei LLM multimodali nell'valutazione personalizzando i prompt.

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Abstract

Summary

Support

Support