TrustJudge: Inconsistenze di LLM-come-Giudice e Come Mitigarle
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
Autori: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Abstract
L'adozione di Large Language Models (LLM) come valutatori automatizzati (LLM-as-a-judge) ha rivelato inconsistenze critiche negli attuali framework di valutazione. Identifichiamo due tipi fondamentali di inconsistenze: (1) Inconsistenza nel Confronto dei Punteggi, dove risposte con punteggi più bassi superano quelle con punteggi più alti in confronti a coppie, e (2) Inconsistenza nella Transitività a Coppie, manifestata attraverso catene di preferenze circolari (A>B>C>A) e contraddizioni di equivalenza (A=B=C≠A). Sosteniamo che questi problemi derivano dalla perdita di informazioni nei sistemi di valutazione discreta e da giudizi ambigui di parità durante la valutazione a coppie. Proponiamo TrustJudge, un framework probabilistico che affronta queste limitazioni attraverso due innovazioni chiave: 1) un punteggio sensibile alla distribuzione che calcola aspettative continue dalle probabilità di valutazione discrete, preservando l'entropia dell'informazione per un punteggio più preciso, e 2) un'aggregazione consapevole della verosimiglianza che risolve le violazioni della transitività utilizzando probabilità di preferenza bidirezionali o perplessità. Formalizziamo inoltre i limiti teorici degli attuali framework LLM-as-a-judge e dimostriamo come i componenti di TrustJudge li superino. Quando valutato con Llama-3.1-70B-Instruct come giudice utilizzando il nostro dataset, TrustJudge riduce l'inconsistenza nel Confronto dei Punteggi dell'8.43% (da 23.32% a 14.89%) e l'inconsistenza nella Transitività a Coppie del 10.82% (da 15.22% a 4.40%), mantenendo una maggiore accuratezza di valutazione. Il nostro lavoro fornisce la prima analisi sistematica delle inconsistenze nei framework di valutazione nei paradigmi LLM-as-a-judge, offrendo sia intuizioni teoriche che soluzioni pratiche per una valutazione automatizzata affidabile. Il framework dimostra miglioramenti consistenti attraverso varie architetture e scale di modelli, consentendo una valutazione più affidabile degli LLM senza richiedere ulteriori addestramenti o annotazioni umane. I codici sono disponibili all'indirizzo https://github.com/TrustJudge/TrustJudge.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.