TrustJudge: Inkonsistenzen von LLM-als-Richter und wie man sie mildern kann
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
papers.authors: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
papers.abstract
Die Einführung von Large Language Models (LLMs) als automatisierte Bewerter (LLM-as-a-judge) hat kritische Inkonsistenzen in den aktuellen Bewertungsrahmen offengelegt. Wir identifizieren zwei grundlegende Arten von Inkonsistenzen: (1) Score-Comparison-Inkonsistenz, bei der niedriger bewertete Antworten in paarweisen Vergleichen besser abschneiden als höher bewertete, und (2) Pairwise-Transitivity-Inkonsistenz, die sich durch zirkuläre Präferenzketten (A>B>C>A) und Äquivalenzwidersprüche (A=B=C≠A) manifestiert. Wir argumentieren, dass diese Probleme auf Informationsverlust in diskreten Bewertungssystemen und mehrdeutigen Unentschieden-Urteilen während der paarweisen Bewertung zurückzuführen sind. Wir schlagen TrustJudge vor, ein probabilistisches Framework, das diese Einschränkungen durch zwei Schlüsselinnovationen adressiert: 1) verteilungssensitive Bewertung, die kontinuierliche Erwartungswerte aus diskreten Bewertungswahrscheinlichkeiten berechnet und die Informationsentropie für präzisere Bewertungen erhält, und 2) wahrscheinlichkeitsbewusste Aggregation, die Transitivitätsverletzungen durch bidirektionale Präferenzwahrscheinlichkeiten oder Perplexität auflöst. Wir formalisieren auch die theoretischen Grenzen der aktuellen LLM-as-a-judge-Frameworks und zeigen, wie die Komponenten von TrustJudge diese überwinden. Bei der Bewertung mit Llama-3.1-70B-Instruct als Bewerter anhand unseres Datensatzes reduziert TrustJudge die Score-Comparison-Inkonsistenz um 8,43 % (von 23,32 % auf 14,89 %) und die Pairwise-Transitivity-Inkonsistenz um 10,82 % (von 15,22 % auf 4,40 %), während gleichzeitig eine höhere Bewertungsgenauigkeit beibehalten wird. Unsere Arbeit bietet die erste systematische Analyse von Inkonsistenzen in Bewertungsrahmen innerhalb der LLM-as-a-judge-Paradigmen und liefert sowohl theoretische Einblicke als auch praktische Lösungen für zuverlässige automatisierte Bewertungen. Das Framework zeigt konsistente Verbesserungen über verschiedene Modellarchitekturen und -größen hinweg und ermöglicht eine vertrauenswürdigere LLM-Bewertung ohne zusätzliches Training oder menschliche Annotationen. Die Codes sind unter https://github.com/TrustJudge/TrustJudge verfügbar.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.