Prométhée : Induction de capacités d'évaluation fine dans les modèles de langage
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
October 12, 2023
papers.authors: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI
papers.abstract
Récemment, l'utilisation d'un modèle de langage de grande envergure (LLM) propriétaire puissant (par exemple, GPT-4) comme évaluateur pour des réponses longues est devenue la norme de facto. Cependant, pour les praticiens confrontés à des tâches d'évaluation à grande échelle et à des critères personnalisés (par exemple, la lisibilité pour les enfants), l'utilisation de LLM propriétaires comme évaluateurs est peu fiable en raison de leur nature fermée, de leur versioning non contrôlé et de leurs coûts prohibitifs. Dans ce travail, nous proposons Prometheus, un LLM entièrement open-source qui rivalise avec les capacités d'évaluation de GPT-4 lorsque les documents de référence appropriés (réponse de référence, grille de notation) sont fournis. Nous construisons d'abord la Collection de Feedback, un nouvel ensemble de données composé de 1 000 grilles de notation détaillées, 20 000 instructions et 100 000 réponses et commentaires linguistiques générés par GPT-4. En utilisant la Collection de Feedback, nous entraînons Prometheus, un LLM évaluateur de 13 milliards de paramètres capable d'évaluer tout texte long en fonction d'une grille de notation personnalisée fournie par l'utilisateur. Les résultats expérimentaux montrent que Prometheus obtient un coefficient de corrélation de Pearson de 0,897 avec des évaluateurs humains lors de l'évaluation avec 45 grilles de notation personnalisées, ce qui est comparable à GPT-4 (0,882) et surpasse largement ChatGPT (0,392). De plus, la mesure de la corrélation avec GPT-4 avec 1 222 grilles de notation personnalisées sur quatre benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) montre des tendances similaires, renforçant les capacités de Prometheus en tant que LLM évaluateur. Enfin, Prometheus atteint la plus haute précision sur deux benchmarks de préférence humaine (HHH Alignment & MT Bench Human Judgment) par rapport aux modèles de récompense open-source explicitement entraînés sur des ensembles de données de préférence humaine, soulignant son potentiel en tant que modèle de récompense universel. Nous mettons à disposition notre code, notre ensemble de données et notre modèle sur https://github.com/kaistAI/Prometheus.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://github.com/kaistAI/Prometheus.