Prometheus 2: 다른 언어 모델 평가에 특화된 오픈소스 언어 모델Prometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
GPT-4와 같은 독점적인 언어 모델(LM)은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 제어 가능성, 비용 효율성과 같은 문제들은 평가에 특화된 오픈소스 LM 개발을 강력히 촉구하고 있습니다. 반면, 기존의 오픈소스 평가자 LM들은 중요한 단점을 보입니다: 1) 인간이 부여한 점수와 크게 벗어나는 점수를 발행하며, 2) 가장 일반적인 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족합니다. 또한, 도움의 정도나 유해성과 같은 일반적인 속성에 초점을 맞추고 있어, 사용자 정의 평가 기준에 기반한 평가 능력이 없습니다. 이러한 문제를 해결하기 위해, 우리는 이전 버전보다 더 강력한 평가자 LM인 Prometheus 2를 소개합니다. 이 모델은 인간과 GPT-4의 판단을 밀접하게 반영하며, 사용자 정의 평가 기준과 함께 직접 평가 및 쌍별 순위 지정 형식을 모두 처리할 수 있습니다. 네 개의 직접 평가 벤치마크와 네 개의 쌍별 순위 지정 벤치마크에서, Prometheus 2는 테스트된 모든 오픈소스 평가자 LM 중에서 인간과 독점 LM 평가자와의 가장 높은 상관관계와 일치도를 보였습니다. 우리의 모델, 코드, 데이터는 모두 https://github.com/prometheus-eval/prometheus-eval에서 공개되어 있습니다.