Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
October 12, 2023
Autoren: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI
Zusammenfassung
Kürzlich hat die Verwendung eines leistungsstarken proprietären Large Language Model (LLM) (z. B. GPT-4) als Bewerter für langformatige Antworten zum De-facto-Standard entwickelt. Für Praktiker mit groß angelegten Bewertungsaufgaben und spezifischen Kriterien (z. B. Lesbarkeit für Kinder) ist die Verwendung proprietärer LLMs als Bewerter jedoch aufgrund der Closed-Source-Natur, unkontrollierten Versionierung und prohibitiv hohen Kosten unzuverlässig. In dieser Arbeit stellen wir Prometheus vor, ein vollständig Open-Source-LLM, das in Bezug auf die Bewertungsfähigkeiten von GPT-4 gleichwertig ist, wenn die entsprechenden Referenzmaterialien (Referenzantwort, Bewertungsraster) bereitgestellt werden. Zunächst erstellen wir die Feedback Collection, einen neuen Datensatz, der aus 1.000 detaillierten Bewertungsrastern, 20.000 Anweisungen und 100.000 Antworten sowie Sprachfeedback besteht, die von GPT-4 generiert wurden. Mit der Feedback Collection trainieren wir Prometheus, ein 13B-Bewerter-LLM, das jeden gegebenen langformatigen Text basierend auf einem vom Benutzer bereitgestellten benutzerdefinierten Bewertungsraster bewerten kann. Experimentelle Ergebnisse zeigen, dass Prometheus bei der Bewertung mit 45 benutzerdefinierten Bewertungsrastern eine Pearson-Korrelation von 0,897 mit menschlichen Bewertern erreicht, was mit GPT-4 (0,882) vergleichbar ist und ChatGPT (0,392) deutlich übertrifft. Darüber hinaus zeigt die Messung der Korrelation mit GPT-4 mit 1.222 benutzerdefinierten Bewertungsrastern über vier Benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) ähnliche Trends und unterstreicht die Fähigkeiten von Prometheus als Bewerter-LLM. Schließlich erreicht Prometheus die höchste Genauigkeit bei zwei menschlichen Präferenz-Benchmarks (HHH Alignment & MT Bench Human Judgment) im Vergleich zu Open-Source-Belohnungsmodellen, die explizit auf menschlichen Präferenzdatensätzen trainiert wurden, und hebt sein Potenzial als universelles Belohnungsmodell hervor. Wir stellen unseren Code, Datensatz und das Modell unter https://github.com/kaistAI/Prometheus Open Source zur Verfügung.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://github.com/kaistAI/Prometheus.