TrustJudge: Inconsistenties van LLM-als-Rechter en Hoe Deze te Verlichten
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
Auteurs: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Samenvatting
De adoptie van Large Language Models (LLM's) als geautomatiseerde beoordelaars (LLM-as-a-judge) heeft kritieke inconsistenties in huidige evaluatieframeworks aan het licht gebracht. We identificeren twee fundamentele soorten inconsistenties: (1) Score-Vergelijkingsinconsistentie, waarbij lager gewaardeerde reacties beter presteren dan hoger gescoorde in paarsgewijze vergelijkingen, en (2) Paarsgewijze Transitiviteitsinconsistentie, die zich manifesteert door circulaire voorkeursketens (A>B>C>A) en equivalentie-tegenstrijdigheden (A=B=C≠A). We stellen dat deze problemen voortkomen uit informatieverlies in discrete beoordelingssystemen en ambiguïteit bij gelijkspelbeoordelingen tijdens paarsgewijze evaluatie. We introduceren TrustJudge, een probabilistisch framework dat deze beperkingen aanpakt via twee belangrijke innovaties: 1) distributiegevoelige scoring die continue verwachtingen berekent uit discrete beoordelingskansen, waardoor informatie-entropie behouden blijft voor nauwkeurigere scoring, en 2) waarschijnlijkheidsbewuste aggregatie die transitiviteitsschendingen oplost met behulp van bidirectionele voorkeurskansen of perplexiteit. We formaliseren ook de theoretische beperkingen van huidige LLM-as-a-judge frameworks en tonen aan hoe de componenten van TrustJudge deze overwinnen. Bij evaluatie met Llama-3.1-70B-Instruct als beoordelaar op basis van onze dataset, vermindert TrustJudge Score-Vergelijkingsinconsistentie met 8,43% (van 23,32% naar 14,89%) en Paarsgewijze Transitiviteitsinconsistentie met 10,82% (van 15,22% naar 4,40%), terwijl een hogere evaluatienauwkeurigheid wordt behouden. Ons werk biedt de eerste systematische analyse van evaluatieframeworkinconsistenties in LLM-as-a-judge paradigma's, met zowel theoretische inzichten als praktische oplossingen voor betrouwbare geautomatiseerde beoordeling. Het framework toont consistente verbeteringen over verschillende modelarchitecturen en schalen, waardoor betrouwbaardere LLM-evaluatie mogelijk wordt zonder extra training of menselijke annotaties. De codes zijn te vinden op https://github.com/TrustJudge/TrustJudge.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.