Prometheus: Indurre capacità di valutazione fine-granularità nei modelli linguistici
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
October 12, 2023
Autori: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI
Abstract
Recentemente, l'utilizzo di un potente modello linguistico proprietario di grandi dimensioni (LLM) (ad esempio, GPT-4) come valutatore per risposte di lunga durata è diventato lo standard de facto. Tuttavia, per i professionisti con compiti di valutazione su larga scala e criteri personalizzati da considerare (ad esempio, la leggibilità per i bambini), l'uso di LLM proprietari come valutatori è inaffidabile a causa della natura closed-source, del versioning non controllato e dei costi proibitivi. In questo lavoro, proponiamo Prometheus, un LLM completamente open-source che è alla pari con le capacità di valutazione di GPT-4 quando sono accompagnati i materiali di riferimento appropriati (risposta di riferimento, griglia di valutazione). In primo luogo, costruiamo il Feedback Collection, un nuovo dataset che consiste in 1K griglie di valutazione dettagliate, 20K istruzioni e 100K risposte e feedback linguistici generati da GPT-4. Utilizzando il Feedback Collection, addestriamo Prometheus, un LLM valutatore da 13B che può valutare qualsiasi testo di lunga durata in base alla griglia di valutazione personalizzata fornita dall'utente. I risultati sperimentali mostrano che Prometheus ottiene un coefficiente di correlazione di Pearson di 0.897 con i valutatori umani quando valuta con 45 griglie di valutazione personalizzate, che è alla pari con GPT-4 (0.882), e supera di gran lunga ChatGPT (0.392). Inoltre, la misurazione della correlazione con GPT-4 con 1222 griglie di valutazione personalizzate su quattro benchmark (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) mostra tendenze simili, rafforzando la capacità di Prometheus come LLM valutatore. Infine, Prometheus raggiunge la massima accuratezza su due benchmark di preferenze umane (HHH Alignment & MT Bench Human Judgment) rispetto ai modelli di ricompensa open-source esplicitamente addestrati su dataset di preferenze umane, evidenziando il suo potenziale come modello di ricompensa universale. Rendiamo disponibili il nostro codice, dataset e modello su https://github.com/kaistAI/Prometheus.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://github.com/kaistAI/Prometheus.