Prometheus 2: 他言語モデル評価に特化したオープンソース言語モデルPrometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
GPT-4のようなプロプライエタリな言語モデル(LM)は、さまざまなLMからの応答品質を評価するためによく使用されます。しかし、透明性、制御性、そしてコスト面での懸念から、評価に特化したオープンソースLMの開発が強く求められています。一方、既存のオープンな評価用LMには重大な欠点があります:1)人間が付与するスコアと大きく乖離したスコアを出すこと、2)直接評価とペアワイズランキングという最も一般的な評価形式の両方を柔軟に実行できないことです。さらに、カスタム評価基準に基づいて評価する能力がなく、有用性や無害性といった一般的な属性に焦点を当てています。これらの問題を解決するため、我々はPrometheus 2を紹介します。これは前身モデルよりも強力な評価用LMであり、人間やGPT-4の判断に非常に近い評価を行います。さらに、ユーザー定義の評価基準と組み合わせた直接評価とペアワイズランキングの両方の形式を処理可能です。4つの直接評価ベンチマークと4つのペアワイズランキングベンチマークにおいて、Prometheus 2はテストされたすべてのオープン評価用LMの中で、人間やプロプライエタリなLMの評価者との最高の相関と一致を示しました。我々のモデル、コード、データはすべてhttps://github.com/prometheus-eval/prometheus-evalで公開されています。