ChatPaper.aiChatPaper

Quand le jugement devient bruit : comment les défauts de conception dans les benchmarks d'évaluation des LLM minent silencieusement la validité

When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

September 24, 2025
papers.authors: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI

papers.abstract

Les benchmarks évalués par des LLM (modèles de langage) sont de plus en plus utilisés pour évaluer les comportements complexes des modèles, mais leur conception introduit des modes de défaillance absents dans les benchmarks traditionnels basés sur des vérités de référence. Nous soutenons que sans objectifs précis et constructions vérifiables, les classements des benchmarks peuvent produire des résultats de haute confiance qui sont en réalité largement bruités. Nous introduisons deux mécanismes pour diagnostiquer ces problèmes. L'adhérence schématique quantifie la part du verdict global d'un évaluateur qui est expliquée par le schéma d'évaluation explicite, révélant une variance inexpliquée lorsque les évaluateurs s'écartent de leur propre grille. La validité psychométrique agrège des signaux de cohérence interne et de validité discriminante pour quantifier l'incertitude irréductible dans toute exécution de benchmark. En appliquant ces outils à Arena-Hard Auto, nous constatons une incohérence schématique sévère et un effondrement des facteurs parmi les évaluateurs populaires : par exemple, une variance inexpliquée dépassant 90 % pour DeepSeek-R1-32B et des corrélations de facteurs supérieures à 0,93 pour la plupart des critères. Nous montrons également que l'agrégation de style ELO utilisée par Arena-Hard Auto s'effondre et masque l'incertitude réelle des classements. Nos résultats mettent en lumière des défauts de conception qui compromettent la validité et proposent des principes actionnables pour construire des benchmarks évalués par des LLM mieux définis et conscients de la fiabilité. Nous publions notre code à l'adresse suivante : https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model behaviors, yet their design introduces failure modes absent in conventional ground-truth based benchmarks. We argue that without tight objectives and verifiable constructions, benchmark rankings can produce high-confidence rankings that are in fact largely noise. We introduce two mechanisms to diagnose these issues. Schematic adherence quantifies how much of a judge's overall verdict is explained by the explicit evaluation schema, revealing unexplained variance when judges deviate from their own rubric. Psychometric validity aggregates internal consistency and discriminant validity signals to quantify irreducible uncertainty in any benchmarking run. Applying these tools to Arena-Hard Auto, we find severe schema incoherence and factor collapse across popular judges: for example, unexplained variance exceeding 90 percent for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We also show that the ELO-style aggregation used by Arena-Hard Auto collapses and masks genuine ranking uncertainty. Our results highlight design failures that undermine validity and offer actionable principles for building better-scoped, reliability-aware LLM-judged benchmarks. We release our code at https://anonymous.4open.science/r/judgment-to-noise-947D/README.md
PDF53September 26, 2025