TrustJudge: LLM-as-a-Judgeの不整合性とその緩和策
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
著者: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
要旨
大規模言語モデル(LLM)を自動評価者として採用する(LLM-as-a-judge)ことで、現在の評価フレームワークにおける重大な不整合が明らかになりました。我々は、2つの基本的な不整合を特定しました:(1)スコア比較不整合:ペアワイズ比較において、低評価の回答が高評価の回答を上回る場合、(2)ペアワイズ推移性不整合:循環的な選好連鎖(A>B>C>A)や等価性の矛盾(A=B=C≠A)として現れるものです。これらの問題は、離散的な評価システムにおける情報の損失と、ペアワイズ評価時の曖昧な同点判断に起因すると主張します。我々は、これらの制限を克服する確率的フレームワークであるTrustJudgeを提案します。TrustJudgeは、2つの主要な革新を通じてこれらの課題に対処します:1)離散的な評価確率から連続的な期待値を計算する分布感応型スコアリングにより、情報エントロピーを保持し、より正確なスコアリングを実現、2)双方向の選好確率またはパープレキシティを使用して推移性違反を解決する尤度認識型集約です。また、現在のLLM-as-a-judgeフレームワークの理論的限界を形式化し、TrustJudgeのコンポーネントがそれらをどのように克服するかを示します。Llama-3.1-70B-Instructを評価者として使用したデータセットでの評価では、TrustJudgeはスコア比較不整合を8.43%(23.32%から14.89%へ)、ペアワイズ推移性不整合を10.82%(15.22%から4.40%へ)削減し、高い評価精度を維持しました。我々の研究は、LLM-as-a-judgeパラダイムにおける評価フレームワークの不整合を体系的に分析した初めてのものであり、信頼性の高い自動評価のための理論的洞察と実践的解決策を提供します。このフレームワークは、様々なモデルアーキテクチャとスケールにおいて一貫した改善を示し、追加のトレーニングや人間の注釈を必要とせずに、より信頼できるLLM評価を可能にします。コードはhttps://github.com/TrustJudge/TrustJudgeで公開されています。
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.