Prometheus 2: 다른 언어 모델 평가에 특화된 오픈소스 언어 모델

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

May 2, 2024
저자: Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo
cs.AI

초록

GPT-4와 같은 독점적인 언어 모델(LM)은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 제어 가능성, 비용 효율성과 같은 문제들은 평가에 특화된 오픈소스 LM 개발을 강력히 촉구하고 있습니다. 반면, 기존의 오픈소스 평가자 LM들은 중요한 단점을 보입니다: 1) 인간이 부여한 점수와 크게 벗어나는 점수를 발행하며, 2) 가장 일반적인 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족합니다. 또한, 도움의 정도나 유해성과 같은 일반적인 속성에 초점을 맞추고 있어, 사용자 정의 평가 기준에 기반한 평가 능력이 없습니다. 이러한 문제를 해결하기 위해, 우리는 이전 버전보다 더 강력한 평가자 LM인 Prometheus 2를 소개합니다. 이 모델은 인간과 GPT-4의 판단을 밀접하게 반영하며, 사용자 정의 평가 기준과 함께 직접 평가 및 쌍별 순위 지정 형식을 모두 처리할 수 있습니다. 네 개의 직접 평가 벤치마크와 네 개의 쌍별 순위 지정 벤치마크에서, Prometheus 2는 테스트된 모든 오픈소스 평가자 LM 중에서 인간과 독점 LM 평가자와의 가장 높은 상관관계와 일치도를 보였습니다. 우리의 모델, 코드, 데이터는 모두 https://github.com/prometheus-eval/prometheus-eval에서 공개되어 있습니다.
English
Proprietary LMs such as GPT-4 are often employed to assess the quality of responses from various LMs. However, concerns including transparency, controllability, and affordability strongly motivate the development of open-source LMs specialized in evaluations. On the other hand, existing open evaluator LMs exhibit critical shortcomings: 1) they issue scores that significantly diverge from those assigned by humans, and 2) they lack the flexibility to perform both direct assessment and pairwise ranking, the two most prevalent forms of assessment. Additionally, they do not possess the ability to evaluate based on custom evaluation criteria, focusing instead on general attributes like helpfulness and harmlessness. To address these issues, we introduce Prometheus 2, a more powerful evaluator LM than its predecessor that closely mirrors human and GPT-4 judgements. Moreover, it is capable of processing both direct assessment and pair-wise ranking formats grouped with a user-defined evaluation criteria. On four direct assessment benchmarks and four pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and agreement with humans and proprietary LM judges among all tested open evaluator LMs. Our models, code, and data are all publicly available at https://github.com/prometheus-eval/prometheus-eval.

Summary

AI-Generated Summary

PDF12311December 15, 2024