TrustJudge: Inconsistencias de los LLM como jueces y cómo mitigarlas
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
Autores: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Resumen
La adopción de Modelos de Lenguaje de Gran Escala (LLMs) como evaluadores automatizados (LLM-como-juez) ha revelado inconsistencias críticas en los marcos de evaluación actuales. Identificamos dos tipos fundamentales de inconsistencias: (1) Inconsistencia en la Comparación de Puntuaciones, donde respuestas con puntuaciones más bajas superan a las de mayor puntuación en comparaciones por pares, y (2) Inconsistencia en la Transitividad de Pares, manifestada a través de cadenas circulares de preferencias (A>B>C>A) y contradicciones de equivalencia (A=B=C≠A). Argumentamos que estos problemas surgen de la pérdida de información en sistemas de calificación discretos y juicios ambiguos de empate durante la evaluación por pares. Proponemos TrustJudge, un marco probabilístico que aborda estas limitaciones mediante dos innovaciones clave: 1) puntuación sensible a la distribución que calcula expectativas continuas a partir de probabilidades de calificación discretas, preservando la entropía de la información para una puntuación más precisa, y 2) agregación consciente de la verosimilitud que resuelve violaciones de transitividad utilizando probabilidades de preferencia bidireccionales o perplejidad. También formalizamos las limitaciones teóricas de los marcos actuales de LLM-como-juez y demostramos cómo los componentes de TrustJudge las superan. Al evaluar con Llama-3.1-70B-Instruct como juez utilizando nuestro conjunto de datos, TrustJudge reduce la Inconsistencia en la Comparación de Puntuaciones en un 8.43% (de 23.32% a 14.89%) y la Inconsistencia en la Transitividad de Pares en un 10.82% (de 15.22% a 4.40%), manteniendo una mayor precisión en la evaluación. Nuestro trabajo proporciona el primer análisis sistemático de las inconsistencias en los marcos de evaluación en paradigmas de LLM-como-juez, ofreciendo tanto perspectivas teóricas como soluciones prácticas para una evaluación automatizada confiable. El marco demuestra mejoras consistentes en diversas arquitecturas y escalas de modelos, permitiendo una evaluación de LLM más confiable sin requerir entrenamiento adicional o anotaciones humanas. Los códigos pueden encontrarse en https://github.com/TrustJudge/TrustJudge.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.