Prometheus: Het induceren van fijnmazige evaluatiecapaciteit in taalmodelen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
October 12, 2023
Auteurs: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI
Samenvatting
Onlangs is het gebruik van een krachtig propriëtair Large Language Model (LLM) (bijv. GPT-4) als evaluator voor langere antwoorden de facto standaard geworden. Voor beoefenaars met grootschalige evaluatietaken en specifieke criteria (bijv. leesbaarheid voor kinderen) is het gebruik van propriëtaire LLM's als evaluator echter onbetrouwbaar vanwege de gesloten aard, ongecontroleerde versiebeheer en hoge kosten. In dit werk stellen we Prometheus voor, een volledig open-source LLM dat qua evaluatiecapaciteiten op het niveau van GPT-4 ligt wanneer de juiste referentiematerialen (referentietekst, beoordelingsrubriek) worden meegeleverd. We construeren eerst de Feedback Collection, een nieuwe dataset die bestaat uit 1K gedetailleerde beoordelingsrubrieken, 20K instructies en 100K antwoorden en taalfeedback gegenereerd door GPT-4. Met de Feedback Collection trainen we Prometheus, een 13B evaluator-LLM dat elke gegeven langere tekst kan beoordelen op basis van een door de gebruiker aangepaste beoordelingsrubriek. Experimentele resultaten tonen aan dat Prometheus een Pearson-correlatie van 0,897 behaalt met menselijke evaluatoren bij het beoordelen met 45 aangepaste beoordelingsrubrieken, wat vergelijkbaar is met GPT-4 (0,882) en aanzienlijk beter presteert dan ChatGPT (0,392). Bovendien laat het meten van de correlatie met GPT-4 met 1222 aangepaste beoordelingsrubrieken over vier benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) vergelijkbare trends zien, wat de capaciteiten van Prometheus als evaluator-LLM onderstreept. Ten slotte behaalt Prometheus de hoogste nauwkeurigheid op twee benchmarks voor menselijke voorkeuren (HHH Alignment & MT Bench Human Judgment) in vergelijking met open-source beloningsmodellen die expliciet zijn getraind op datasets met menselijke voorkeuren, wat het potentieel ervan als universeel beloningsmodel benadrukt. We maken onze code, dataset en model openbaar op https://github.com/kaistAI/Prometheus.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://github.com/kaistAI/Prometheus.