JudgeBench: LLMベースの判定者を評価するためのベンチマーク
JudgeBench: A Benchmark for Evaluating LLM-based Judges
October 16, 2024
著者: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI
要旨
LLMベースの判定者は、人間の評価に代わるスケーラブルな選択肢として登場し、モデルの評価、比較、改善にますます使用されています。ただし、LLMベースの判定者自体の信頼性はほとんど検証されていません。LLMがより高度になるにつれ、その応答はより洗練され、それらを評価するためにより強力な判定者が必要とされます。既存のベンチマークは主に判定者が人間の好みと一致するかどうかに焦点を当てていますが、クラウドソーシングされた人間の好みが事実と論理の正確性の指標として適切でないようなより難しいタスクを考慮することができません。この課題に対処するために、我々はLLMベースの判定者を客観的に評価するための新しい評価フレームワークを提案します。このフレームワークに基づいて、知識、推論、数学、コーディングを含む難解な応答ペアでLLMベースの判定者を評価するためのベンチマークであるJudgeBenchを提案します。JudgeBenchは、既存の難しいデータセットを難解な応答ペアに変換し、客観的な正確性を反映した優先度ラベルを持つ新しいパイプラインを活用しています。提示された判定者、ファインチューニングされた判定者、マルチエージェント判定者、報酬モデルのコレクションに対する包括的な評価により、JudgeBenchは以前のベンチマークよりもはるかに大きな課題を提供し、多くの強力なモデル(例:GPT-4o)がランダムな推測よりも僅かに優れた結果を示すことが明らかになりました。全体として、JudgeBenchは、ますます高度になるLLMベースの判定者を評価するための信頼性のあるプラットフォームを提供します。データとコードはhttps://github.com/ScalerLab/JudgeBench で入手可能です。
English
LLM-based judges have emerged as a scalable alternative to human evaluation
and are increasingly used to assess, compare, and improve models. However, the
reliability of LLM-based judges themselves is rarely scrutinized. As LLMs
become more advanced, their responses grow more sophisticated, requiring
stronger judges to evaluate them. Existing benchmarks primarily focus on a
judge's alignment with human preferences, but often fail to account for more
challenging tasks where crowdsourced human preference is a poor indicator of
factual and logical correctness. To address this, we propose a novel evaluation
framework to objectively evaluate LLM-based judges. Based on this framework, we
propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging
response pairs spanning knowledge, reasoning, math, and coding. JudgeBench
leverages a novel pipeline for converting existing difficult datasets into
challenging response pairs with preference labels reflecting objective
correctness. Our comprehensive evaluation on a collection of prompted judges,
fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench
poses a significantly greater challenge than previous benchmarks, with many
strong models (e.g., GPT-4o) performing just slightly better than random
guessing. Overall, JudgeBench offers a reliable platform for assessing
increasingly advanced LLM-based judges. Data and code are available at
https://github.com/ScalerLab/JudgeBench .Summary
AI-Generated Summary