ChatPaper.aiChatPaper

定量的LLM評価

Quantitative LLM Judges

June 3, 2025
著者: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
cs.AI

要旨

LLM-as-a-judgeは、大規模言語モデル(LLM)が別のLLMの出力を自動的に評価するフレームワークです。本論文では、定量化されたLLM評価者を提案します。これらは、回帰モデルを用いて既存のLLM評価者の評価スコアを特定のドメインにおける人間のスコアに合わせるものです。モデルは、評価者のテキスト評価とスコアを使用して、元の評価者のスコアを改善するように訓練されます。絶対的および相対的フィードバックの異なるタイプに対応する4つの定量化評価者を提示し、本フレームワークの汎用性と多様性を示します。本フレームワークは、教師ありファインチューニングよりも計算効率が高く、人間のフィードバックが限られている場合(本手法のほとんどの応用で想定される状況)には統計的効率も高くなります。これらの主張を、2つの基本評価者を用いて4つのデータセットで実証的に検証します。実験結果から、定量化評価者が事後モデリングを通じて既存の評価者の予測力を効果的に改善できることが示されています。
English
LLM-as-a-judge is a framework in which a large language model (LLM) automatically evaluates the output of another LLM. We propose quantitative LLM judges, which align evaluation scores of existing LLM judges to human scores in a given domain using regression models. The models are trained to improve the score of the original judge by using the judge's textual evaluation and score. We present four quantitative judges for different types of absolute and relative feedback, which showcases the generality and versatility of our framework. Our framework is more computationally efficient than supervised fine-tuning and can be more statistically efficient when human feedback is limited, which is expected in most applications of our work. We validate these claims empirically on four datasets using two base judges. Our experiments show that quantitative judges can effectively improve the predictive power of existing judges through post-hoc modeling.
PDF42June 5, 2025