TrustJudge: Inconsistências do LLM-como-Juiz e Como Aliviá-las
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
Autores: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Resumo
A adoção de Modelos de Linguagem de Grande Escala (LLMs) como avaliadores automatizados (LLM-as-a-judge) revelou inconsistências críticas nos frameworks de avaliação atuais. Identificamos dois tipos fundamentais de inconsistências: (1) Inconsistência de Comparação de Pontuação, onde respostas com pontuações mais baixas superam aquelas com pontuações mais altas em comparações pareadas, e (2) Inconsistência de Transitividade Pareada, manifestada através de cadeias de preferência circulares (A>B>C>A) e contradições de equivalência (A=B=C≠A). Argumentamos que esses problemas surgem da perda de informação em sistemas de avaliação discretos e de julgamentos de empate ambíguos durante a avaliação pareada. Propomos o TrustJudge, um framework probabilístico que aborda essas limitações por meio de duas inovações principais: 1) pontuação sensível à distribuição, que calcula expectativas contínuas a partir de probabilidades de avaliação discretas, preservando a entropia da informação para uma pontuação mais precisa, e 2) agregação consciente da verossimilhança, que resolve violações de transitividade usando probabilidades de preferência bidirecionais ou perplexidade. Também formalizamos as limitações teóricas dos frameworks atuais de LLM-as-a-judge e demonstramos como os componentes do TrustJudge as superam. Quando avaliado com o Llama-3.1-70B-Instruct como juiz usando nosso conjunto de dados, o TrustJudge reduz a inconsistência de Comparação de Pontuação em 8,43% (de 23,32% para 14,89%) e a inconsistência de Transitividade Pareada em 10,82% (de 15,22% para 4,40%), mantendo uma maior precisão de avaliação. Nosso trabalho fornece a primeira análise sistemática das inconsistências nos frameworks de avaliação em paradigmas de LLM-as-a-judge, oferecendo insights teóricos e soluções práticas para uma avaliação automatizada confiável. O framework demonstra melhorias consistentes em várias arquiteturas e escalas de modelos, permitindo uma avaliação de LLMs mais confiável sem a necessidade de treinamento adicional ou anotações humanas. Os códigos podem ser encontrados em https://github.com/TrustJudge/TrustJudge.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.