¿Vamos por el buen camino para evaluar los LLM como jueces?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
Autores: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
Resumen
El método LLM-como-Juez ha sido ampliamente adoptado como técnica de evaluación y ha servido como recompensa supervisada en el entrenamiento de modelos. Sin embargo, los puntos de referencia existentes para LLM-como-Juez dependen principalmente de verdades fundamentales anotadas por humanos, lo que introduce un sesgo humano que socava la evaluación de la fiabilidad e impone limitaciones de escalabilidad. Para superar estas limitaciones, presentamos Sage, un novedoso conjunto de evaluación que valora la calidad de los modelos LLM como jueces sin necesidad de anotación humana alguna. Inspirado en los axiomas de la teoría de la elección racional, Sage introduce dos nuevas perspectivas para medir LLM-como-Juez: la autocoherencia local (estabilidad de preferencias por pares) y la coherencia lógica global (transitividad a través de un conjunto completo de preferencias). Hemos creado un conjunto de datos de 650 preguntas combinando problemas estructurados de evaluación con consultas de usuarios del mundo real. Nuestros experimentos demuestran tanto la estabilidad de nuestras métricas como su alta correlación con puntos de referencia supervisados como LLMBar y RewardBench2, lo que confirma la fiabilidad de Sage como suite de evaluación para la robustez y precisión de LLM-como-Juez. Basándonos en Sage, revelamos que los modelos LLM más avanzados actuales presentan problemas significativos de fiabilidad cuando actúan como jueces, tanto en entornos de puntuación como de comparación por pares; incluso los modelos con mejor rendimiento, Gemini-2.5-Pro y GPT-5, no logran mantener preferencias consistentes en casi una cuarta parte de los casos difíciles. Atribuimos esto a un nuevo fenómeno denominado preferencia situacional, que explica por qué las rúbricas o criterios explícitos pueden ayudar al modelo a juzgar de manera consistente entre pares de respuestas. Nuestro análisis adicional muestra que el ajuste fino de LLM-como-Juez es un método viable para mejorar el rendimiento, y que tanto el juez basado en paneles como el razonamiento profundo pueden mejorar la coherencia del juicio. También encontramos una inconsistencia sustancial en los juicios humanos, lo que indica que la anotación humana podría no ser un estándar de oro fiable.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.