Remplacer les juges par des jurys : Évaluer les générations de LLM avec un panel de modèles diversifiés
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
April 29, 2024
Auteurs: Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLMs) sont devenus plus avancés, ils ont dépassé nos capacités à évaluer avec précision leur qualité. Non seulement il est difficile de trouver des données pour sonder adéquatement des propriétés spécifiques des modèles, mais évaluer la justesse d'une génération libre d'un modèle constitue en soi un défi. Pour remédier à cela, de nombreuses évaluations reposent désormais sur l'utilisation des LLMs eux-mêmes comme juges pour noter la qualité des sorties d'autres LLMs. Les évaluations utilisent le plus souvent un seul grand modèle comme GPT4. Bien que cette méthode ait gagné en popularité, elle est coûteuse, s'est avérée introduire un biais intramodèle, et dans ce travail, nous constatons que les très grands modèles sont souvent inutiles. Nous proposons plutôt d'évaluer les modèles en utilisant un Panel d'évaluateurs LLM (PoLL). À travers trois configurations distinctes de juges et couvrant six ensembles de données différents, nous constatons que l'utilisation d'un PoLL composé d'un plus grand nombre de modèles plus petits surpasse un seul grand juge, présente moins de biais intramodèle grâce à sa composition de familles de modèles disjointes, et ce tout en étant plus de sept fois moins coûteux.
English
As Large Language Models (LLMs) have become more advanced, they have outpaced
our abilities to accurately evaluate their quality. Not only is finding data to
adequately probe particular model properties difficult, but evaluating the
correctness of a model's freeform generation alone is a challenge. To address
this, many evaluations now rely on using LLMs themselves as judges to score the
quality of outputs from other LLMs. Evaluations most commonly use a single
large model like GPT4. While this method has grown in popularity, it is costly,
has been shown to introduce intramodel bias, and in this work, we find that
very large models are often unnecessary. We propose instead to evaluate models
using a Panel of LLm evaluators (PoLL). Across three distinct judge settings
and spanning six different datasets, we find that using a PoLL composed of a
larger number of smaller models outperforms a single large judge, exhibits less
intra-model bias due to its composition of disjoint model families, and does so
while being over seven times less expensive.Summary
AI-Generated Summary