ChatPaper.aiChatPaper

Sommes-nous sur la bonne voie pour évaluer les LLM en tant qu'arbitres ?

Are We on the Right Way to Assessing LLM-as-a-Judge?

December 17, 2025
papers.authors: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI

papers.abstract

L'évaluation par LLM (LLM-as-a-Judge) a été largement adoptée comme méthode d'évaluation et sert de récompense supervisée dans l'entraînement des modèles. Cependant, les benchmarks existants pour cette méthode reposent principalement sur une vérité terrain annotée par des humains, ce qui introduit un biais humain qui compromet l'évaluation de la fiabilité et impose des contraintes d'évolutivité. Pour surmonter ces limitations, nous présentons Sage, une nouvelle suite d'évaluation qui évalue la qualité des juges LLM sans nécessiter aucune annotation humaine. Inspiré par les axiomes de la théorie du choix rationnel, Sage introduit deux nouvelles perspectives pour mesurer l'évaluation par LLM : l'auto-cohérence locale (stabilité des préférences par paires) et la cohérence logique globale (transitivité sur un ensemble complet de préférences). Nous constituons un jeu de données de 650 questions en combinant des problèmes de benchmark structurés avec des requêtes d'utilisateurs réels. Nos expériences démontrent à la fois la stabilité de nos métriques et leur forte corrélation avec des benchmarks supervisés comme LLMBar et RewardBench2, confirmant la fiabilité de Sage en tant que suite d'évaluation pour la robustesse et la précision de l'évaluation par LLM. Sur la base de Sage, nous révélons que les LLM à l'état de l'art actuels présentent des problèmes de fiabilité significatifs lorsqu'ils agissent comme juges, que ce soit en attribution de scores ou par comparaison par paires ; même les modèles les plus performants, Gemini-2.5-Pro et GPT-5, échouent à maintenir des préférences cohérentes dans près d'un quart des cas difficiles. Nous attribuons cela à un nouveau phénomène appelé préférence situationnelle, qui explique pourquoi des grilles d'évaluation ou critères explicites peuvent aider le modèle à juger de manière cohérente entre les paires de réponses. Notre analyse approfondie montre qu'un LLM affiné en tant que juge est une méthode viable pour améliorer les performances, et qu'un juge collectif (panel-based) ainsi qu'un raisonnement profond peuvent renforcer la cohérence du jugement. Nous constatons également une incohérence substantielle dans les jugements humains, ce qui indique que l'annotation humaine pourrait ne pas être un étalon-or fiable.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.
PDF221December 23, 2025