TrustJudge : Incohérences du modèle de langage en tant que juge et comment les atténuer
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
papers.authors: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
papers.abstract
L'adoption des modèles de langage à grande échelle (LLM) en tant qu'évaluateurs automatisés (LLM-comme-juge) a révélé des incohérences critiques dans les cadres d'évaluation actuels. Nous identifions deux types fondamentaux d'incohérences : (1) l'incohérence de comparaison des scores, où des réponses moins bien notées surpassent celles ayant des scores plus élevés dans des comparaisons par paires, et (2) l'incohérence de transitivité par paires, manifestée par des chaînes de préférences circulaires (A>B>C>A) et des contradictions d'équivalence (A=B=C≠A). Nous soutenons que ces problèmes proviennent de la perte d'information dans les systèmes de notation discrets et des jugements ambigus d'égalité lors de l'évaluation par paires. Nous proposons TrustJudge, un cadre probabiliste qui aborde ces limitations grâce à deux innovations clés : 1) un système de notation sensible à la distribution qui calcule des attentes continues à partir des probabilités de notation discrètes, préservant l'entropie de l'information pour une notation plus précise, et 2) une agrégation prenant en compte la vraisemblance qui résout les violations de transitivité en utilisant des probabilités de préférence bidirectionnelles ou la perplexité. Nous formalisons également les limites théoriques des cadres LLM-comme-juge actuels et démontrons comment les composants de TrustJudge les surmontent. Lorsqu'il est évalué avec Llama-3.1-70B-Instruct comme juge en utilisant notre ensemble de données, TrustJudge réduit l'incohérence de comparaison des scores de 8,43 % (de 23,32 % à 14,89 %) et l'incohérence de transitivité par paires de 10,82 % (de 15,22 % à 4,40 %), tout en maintenant une précision d'évaluation plus élevée. Notre travail fournit la première analyse systématique des incohérences des cadres d'évaluation dans les paradigmes LLM-comme-juge, offrant à la fois des insights théoriques et des solutions pratiques pour une évaluation automatisée fiable. Le cadre démontre des améliorations constantes à travers diverses architectures et échelles de modèles, permettant une évaluation plus fiable des LLM sans nécessiter d'entraînement supplémentaire ou d'annotations humaines. Les codes sont disponibles à l'adresse https://github.com/TrustJudge/TrustJudge.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.