大規模言語モデルを裁判官とする評価手法は正しい方向に向かっているのか?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
著者: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
要旨
LLM-as-a-Judgeは、評価手法として広く採用され、モデル訓練における教師あり報酬として機能してきた。しかし、既存のLLM-as-a-Judgeのベンチマークは主に人手で注釈された正解データに依存しており、人間のバイアスが導入されることで信頼性評価を損ない、拡張性に制約を課している。これらの限界を克服するため、我々は人間の注釈を一切必要とせずにLLM評価者の質を評価する新しい評価スイート、Sageを提案する。合理的選択理論の公理に着想を得て、SageはLLM-as-a-Judgeを測定するための二つの新しい視点を導入する:局所的自己一貫性(ペアワイズ選好の安定性)と大域論理的一貫性(選好全体にわたる推移性)である。構造化されたベンチマーク問題と実世界のユーザークエリを組み合わせることで、650問からなるデータセットを構築した。実験により、我々の指標の安定性と、LLMBarやRewardBench2のような教師ありベンチマークとの高い相関が実証され、SageがLLM-as-a-Judgeの頑健性と正確性を評価する信頼できるスイートであることが確認された。Sageに基づく分析により、現在の最先端LLMは、採点設定とペアワイズ設定の両方において評価者として機能する際に重大な信頼性問題を示すことが明らかになった。最高性能モデルであるGemini-2.5-ProとGPT-5でさえ、困難なケースの約4分の1で一貫した選好を維持できない。我々はこの原因を状況依存的選好(situational preference)という新現象に帰し、明示的な評価基準やルーブリックがモデルの回答ペア間での一貫した評価を助ける理由を説明する。さらなる分析により、ファインチューニングされたLLM-as-a-Judgeは性能向上の実現可能な方法であり、パネル型評価者や深い推論が評価の一貫性を高めうることが示された。また、人間の判断にも重大な不一致が見られ、人間の注釈が信頼できるゴールドスタンダードではない可能性が示唆された。
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.