Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
October 12, 2023
Авторы: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI
Аннотация
В последнее время использование мощных проприетарных моделей обработки естественного языка (LLM), таких как GPT-4, в качестве инструмента оценки длинных текстов стало де-факто стандартом. Однако для специалистов, сталкивающихся с задачами масштабной оценки и учитывающих специфические критерии (например, удобочитаемость для детей), использование проприетарных LLM в качестве оценщика ненадежно из-за их закрытого исходного кода, отсутствия контроля над версиями и чрезмерно высоких затрат. В данной работе мы представляем Prometheus — полностью открытую LLM, которая по своим оценочным возможностям сопоставима с GPT-4 при наличии соответствующих справочных материалов (эталонного ответа, оценочной шкалы). Сначала мы создаем Feedback Collection — новый набор данных, включающий 1 тыс. детализированных оценочных шкал, 20 тыс. инструкций и 100 тыс. ответов с языковой обратной связью, сгенерированных GPT-4. Используя Feedback Collection, мы обучаем Prometheus — 13-миллиардную LLM-оценщик, способную анализировать любой длинный текст на основе пользовательской оценочной шкалы. Экспериментальные результаты показывают, что Prometheus достигает коэффициента корреляции Пирсона 0,897 с оценками людей при использовании 45 пользовательских оценочных шкал, что сопоставимо с GPT-4 (0,882) и значительно превосходит ChatGPT (0,392). Кроме того, измерение корреляции с GPT-4 на основе 1222 пользовательских оценочных шкал в четырех тестовых наборах (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) демонстрирует схожие тенденции, подтверждая возможности Prometheus как LLM-оценщика. Наконец, Prometheus достигает наивысшей точности на двух тестовых наборах, основанных на предпочтениях людей (HHH Alignment и MT Bench Human Judgment), по сравнению с открытыми моделями вознаграждения, явно обученными на наборах данных с человеческими предпочтениями, что подчеркивает его потенциал в качестве универсальной модели вознаграждения. Мы открываем исходный код, набор данных и модель по адресу https://github.com/kaistAI/Prometheus.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://github.com/kaistAI/Prometheus.