Estamos no Caminho Certo para Avaliar o LLM-como-Juiz?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
Autores: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
Resumo
O LLM-como-Juiz tem sido amplamente adotado como método de avaliação e servido como recompensa supervisionada no treinamento de modelos. No entanto, os benchmarks existentes para LLM-como-Juiz dependem principalmente de verdades fundamentais anotadas por humanos, o que introduz viés humano que compromete a avaliação da confiabilidade e impõe limitações de escalabilidade. Para superar essas limitações, introduzimos o Sage, um novo conjunto de avaliação que analisa a qualidade dos juízes de LLM sem necessitar de qualquer anotação humana. Inspirado pelos axiomas da teoria da escolha racional, o Sage introduz duas novas lentes para medir o LLM-como-Juiz: autoconsistência local (estabilidade de preferência par a par) e consistência lógica global (transitividade através de um conjunto completo de preferências). Curadamos um conjunto de dados de 650 questões combinando problemas de benchmark estruturados com consultas de usuários do mundo real. Nossos experimentos demonstram tanto a estabilidade de nossas métricas quanto sua alta correlação com benchmarks supervisionados como LLMBar e RewardBench2, confirmando a confiabilidade do Sage como um conjunto de avaliação para a robustez e precisão do LLM-como-Juiz. Com base no Sage, revelamos que os LLMs state-of-the-art atuais exibem problemas significativos de confiabilidade ao atuarem como juízes em configurações de pontuação e comparação pareada; mesmo os modelos de melhor desempenho, Gemini-2.5-Pro e GPT-5, falham em manter preferências consistentes em quase um quarto dos casos difíceis. Atribuímos isso a um novo fenômeno chamado preferência situacional, que explica por que rubricas ou critérios explícitos podem ajudar o modelo a julgar consistentemente entre pares de respostas. Nossa análise adicional mostra que o LLM-como-Juiz com ajuste fino é um método viável para melhorar o desempenho, e que o juiz baseado em painel, bem como o raciocínio profundo, podem melhorar a consistência do julgamento. Também encontramos inconsistência substancial nos julgamentos humanos, o que indica que a anotação humana pode não ser um padrão ouro confiável.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.