プロメテウス2: 他言語モデル評価に特化したオープンソース言語モデルPrometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
GPT-4のような専有言語モデルは、様々な言語モデルの応答品質を評価するためによく用いられています。しかし、透明性、制御性、コスト効率といった懸念から、評価に特化したオープンソース言語モデルの開発が強く求められています。一方、既存のオープンソース評価モデルには重大な欠点があります:1)人間が付与するスコアと大きく乖離した評価を下す、2)評価の二大形式である直接評価とペアワイズ比較の両方を柔軟に実行できない点です。さらに、有用性や無害性といった一般的属性に焦点を当てるだけで、カスタム評価基準に基づく評価能力を備えていません。これらの課題を解決するため、我々は前身モデルを上回る性能を持つ評価言語モデルPrometheus 2を提案します。本モデルは人間とGPT-4の判断を忠実に再現し、ユーザー定義の評価基準と組み合わせた直接評価とペアワイズ比較の両方の形式を処理可能です。4つの直接評価ベンチマークと4つのペアワイズ比較ベンチマークにおいて、Prometheus 2は全てのオープンソース評価モデルの中で、人間および専有言語モデル評価者との最高の相関性と一致率を示しました。当モデル、コード、データは全てhttps://github.com/prometheus-eval/prometheus-eval で公開しています。