프로메테우스: 언어 모델의 세밀한 평가 능력 유도
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
October 12, 2023
저자: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI
초록
최근 강력한 독점 대형 언어 모델(LLM, 예: GPT-4)을 장문 응답 평가자로 사용하는 것이 사실상 표준으로 자리 잡았다. 그러나 대규모 평가 작업과 맞춤형 기준(예: 아동 가독성)을 고려해야 하는 실무자들에게는 독점 LLM을 평가자로 사용하는 것이 폐쇄형 소스, 통제되지 않은 버전 관리, 그리고 과도한 비용으로 인해 신뢰할 수 없는 방법이다. 본 연구에서는 적절한 참고 자료(참고 답안, 채점 기준표)가 제공될 때 GPT-4의 평가 능력과 동등한 수준의 완전 오픈소스 LLM인 Prometheus를 제안한다. 먼저, GPT-4가 생성한 1,000개의 세부 채점 기준표, 20,000개의 지시문, 그리고 100,000개의 응답 및 언어 피드백으로 구성된 새로운 데이터셋인 Feedback Collection을 구축한다. 이를 활용하여 사용자가 제공한 맞춤형 채점 기준표를 기반으로 주어진 장문 텍스트를 평가할 수 있는 130억 파라미터 규모의 평가자 LLM인 Prometheus를 학습시킨다. 실험 결과, Prometheus는 45개의 맞춤형 채점 기준표를 사용하여 평가할 때 인간 평가자와 0.897의 피어슨 상관관계를 보였으며, 이는 GPT-4(0.882)와 동등한 수준이고 ChatGPT(0.392)를 크게 능가하는 성능을 보였다. 또한, 4개의 벤치마크(MT Bench, Vicuna Bench, Feedback Bench, Flask Eval)에서 1,222개의 맞춤형 채점 기준표를 사용하여 GPT-4와의 상관관계를 측정한 결과에서도 유사한 경향을 보이며, Prometheus의 평가자 LLM으로서의 능력을 입증했다. 마지막으로, Prometheus는 인간 선호 데이터셋에 명시적으로 학습된 오픈소스 보상 모델들과 비교하여 두 개의 인간 선호 벤치마크(HHH Alignment & MT Bench Human Judgment)에서 가장 높은 정확도를 달성하며, 보편적인 보상 모델로서의 잠재력을 강조한다. 본 연구의 코드, 데이터셋, 모델은 https://github.com/kaistAI/Prometheus에서 공개한다.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://github.com/kaistAI/Prometheus.