Prometheus: Indurre capacità di valutazione fine-granularità nei modelli linguistici

Abstract

Recentemente, l'utilizzo di un potente modello linguistico proprietario di grandi dimensioni (LLM) (ad esempio, GPT-4) come valutatore per risposte di lunga durata è diventato lo standard de facto. Tuttavia, per i professionisti con compiti di valutazione su larga scala e criteri personalizzati da considerare (ad esempio, la leggibilità per i bambini), l'uso di LLM proprietari come valutatori è inaffidabile a causa della natura closed-source, del versioning non controllato e dei costi proibitivi. In questo lavoro, proponiamo Prometheus, un LLM completamente open-source che è alla pari con le capacità di valutazione di GPT-4 quando sono accompagnati i materiali di riferimento appropriati (risposta di riferimento, griglia di valutazione). In primo luogo, costruiamo il Feedback Collection, un nuovo dataset che consiste in 1K griglie di valutazione dettagliate, 20K istruzioni e 100K risposte e feedback linguistici generati da GPT-4. Utilizzando il Feedback Collection, addestriamo Prometheus, un LLM valutatore da 13B che può valutare qualsiasi testo di lunga durata in base alla griglia di valutazione personalizzata fornita dall'utente. I risultati sperimentali mostrano che Prometheus ottiene un coefficiente di correlazione di Pearson di 0.897 con i valutatori umani quando valuta con 45 griglie di valutazione personalizzate, che è alla pari con GPT-4 (0.882), e supera di gran lunga ChatGPT (0.392). Inoltre, la misurazione della correlazione con GPT-4 con 1222 griglie di valutazione personalizzate su quattro benchmark (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) mostra tendenze simili, rafforzando la capacità di Prometheus come LLM valutatore. Infine, Prometheus raggiunge la massima accuratezza su due benchmark di preferenze umane (HHH Alignment & MT Bench Human Judgment) rispetto ai modelli di ricompensa open-source esplicitamente addestrati su dataset di preferenze umane, evidenziando il suo potenziale come modello di ricompensa universale. Rendiamo disponibili il nostro codice, dataset e modello su https://github.com/kaistAI/Prometheus.

English

Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus's capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://github.com/kaistAI/Prometheus.

Prometheus: Indurre capacità di valutazione fine-granularità nei modelli linguistici

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Abstract

Support