普罗米修斯2:专精于评估其他语言模型的开放源代码语言模型Prometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
诸如GPT-4等专有语言模型常被用于评估各类语言模型的应答质量。然而,透明度、可控性及成本效益等方面的顾虑强烈推动了专门用于评估的开源语言模型的研发。现有开源评估模型存在明显缺陷:1)其评分与人类评分存在显著偏差;2)缺乏同时执行直接评估和配对排序(两种最主流评估形式)的灵活性。此外,这些模型无法基于定制化评估标准进行评判,仅能聚焦于帮助性、无害性等通用属性。为解决这些问题,我们推出Prometheus 2——相较于前代更强大的评估语言模型,其评估结果与人类及GPT-4的判断高度吻合。该模型不仅能处理直接评估和配对排序两种模式,还可结合用户自定义的评估标准进行综合分析。在四项直接评估基准和四项配对排序基准测试中,Prometheus 2在所有开源评估模型中取得了与人类及专有模型评估者最高的相关性评分和一致率。我们的模型、代码及数据均已公开于https://github.com/prometheus-eval/prometheus-eval。