Prometheus: Induzindo Capacidade de Avaliação de Alta Granularidade em Modelos de Linguagem

Resumo

Recentemente, o uso de um poderoso modelo de linguagem de grande escala (LLM) proprietário (por exemplo, GPT-4) como avaliador para respostas de longo formato tornou-se o padrão de facto. No entanto, para profissionais com tarefas de avaliação em larga escala e critérios personalizados em consideração (por exemplo, legibilidade para crianças), o uso de LLMs proprietários como avaliador é pouco confiável devido à natureza de código fechado, versionamento não controlado e custos proibitivos. Neste trabalho, propomos o Prometheus, um LLM totalmente de código aberto que é comparável às capacidades de avaliação do GPT-4 quando acompanhado dos materiais de referência apropriados (resposta de referência, rubrica de pontuação). Primeiro, construímos o Feedback Collection, um novo conjunto de dados que consiste em 1K rubricas de pontuação detalhadas, 20K instruções e 100K respostas e feedbacks de linguagem gerados pelo GPT-4. Usando o Feedback Collection, treinamos o Prometheus, um LLM avaliador de 13B que pode avaliar qualquer texto de longo formato com base em uma rubrica de pontuação personalizada fornecida pelo usuário. Resultados experimentais mostram que o Prometheus obtém uma correlação de Pearson de 0,897 com avaliadores humanos ao avaliar com 45 rubricas de pontuação personalizadas, o que é comparável ao GPT-4 (0,882) e supera significativamente o ChatGPT (0,392). Além disso, a medição da correlação com o GPT-4 com 1222 rubricas de pontuação personalizadas em quatro benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) mostra tendências semelhantes, reforçando a capacidade do Prometheus como um LLM avaliador. Por fim, o Prometheus alcança a maior precisão em dois benchmarks de preferência humana (HHH Alignment & MT Bench Human Judgment) em comparação com modelos de recompensa de código aberto explicitamente treinados em conjuntos de dados de preferência humana, destacando seu potencial como um modelo de recompensa universal. Disponibilizamos nosso código, conjunto de dados e modelo em https://github.com/kaistAI/Prometheus.

English

Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus's capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://github.com/kaistAI/Prometheus.

Prometheus: Induzindo Capacidade de Avaliação de Alta Granularidade em Modelos de Linguagem

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Resumo

Support