Prometheus 2:一個專門用於評估其他語言模型的開源語言模型Prometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
專有的語言模型,如GPT-4,常被用來評估來自各種語言模型的回應品質。然而,透明度、可控性和負擔能力等問題強烈促使開發專門用於評估的開源語言模型。另一方面,現有的開源評估語言模型存在嚴重缺陷:1)它們發出的分數與人類分配的分數顯著不同,2)它們缺乏執行直接評估和兩兩排名這兩種最常見的評估形式的靈活性。此外,它們沒有能力根據自定義的評估標準進行評估,而是專注於像幫助性和無害性這樣的一般特徵。為了解決這些問題,我們介紹了Prometheus 2,這是一個比其前身更強大的評估語言模型,它與人類和GPT-4的判斷非常相似。此外,它能夠處理直接評估和兩兩排名格式,並與用戶定義的評估標準分組。在四個直接評估基準和四個兩兩排名基準上,Prometheus 2在所有測試的開源評估語言模型中,與人類和專有語言模型評審之間的相關性和一致性得分最高。我們的模型、代碼和數據都可以在https://github.com/prometheus-eval/prometheus-eval 公開獲取。