Wanneer oordeel ruis wordt: hoe ontwerpfouten in LLM-beoordelingsbenchmarks de validiteit stilletjes ondermijnen
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
September 24, 2025
Auteurs: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI
Samenvatting
LLM-beoordeelde benchmarks worden steeds vaker gebruikt om complex modelgedrag te evalueren, maar hun ontwerp introduceert foutmodi die afwezig zijn in conventionele, op grondwaarheid gebaseerde benchmarks. Wij stellen dat zonder strikte doelstellingen en verifieerbare constructies, benchmarkrangschikkingen hoogvertrouwensrangschikkingen kunnen produceren die in feite grotendeels ruis zijn. We introduceren twee mechanismen om deze problemen te diagnosticeren. Schematische naleving kwantificeert hoeveel van de algehele uitspraak van een beoordelaar wordt verklaard door het expliciete evaluatieschema, waarbij onverklaarde variantie wordt onthuld wanneer beoordelaars afwijken van hun eigen beoordelingscriteria. Psychometrische validiteit aggregeert signalen van interne consistentie en discriminantvaliditeit om onherleidbare onzekerheid in elke benchmarkrun te kwantificeren. Door deze tools toe te passen op Arena-Hard Auto, vinden we ernstige schemaincoherentie en factorcollaps bij populaire beoordelaars: bijvoorbeeld onverklaarde variantie van meer dan 90 procent voor DeepSeek-R1-32B en factorcorrelaties boven 0,93 voor de meeste criteria. We tonen ook aan dat de ELO-stijl aggregatie die door Arena-Hard Auto wordt gebruikt, ineenstort en echte rangschikkingsonzekerheid maskeert. Onze resultaten benadrukken ontwerpfouten die de validiteit ondermijnen en bieden actiegerichte principes voor het bouwen van beter afgebakende, betrouwbaarheidsbewuste LLM-beoordeelde benchmarks. We geven onze code vrij op https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model
behaviors, yet their design introduces failure modes absent in conventional
ground-truth based benchmarks. We argue that without tight objectives and
verifiable constructions, benchmark rankings can produce high-confidence
rankings that are in fact largely noise. We introduce two mechanisms to
diagnose these issues. Schematic adherence quantifies how much of a judge's
overall verdict is explained by the explicit evaluation schema, revealing
unexplained variance when judges deviate from their own rubric. Psychometric
validity aggregates internal consistency and discriminant validity signals to
quantify irreducible uncertainty in any benchmarking run. Applying these tools
to Arena-Hard Auto, we find severe schema incoherence and factor collapse
across popular judges: for example, unexplained variance exceeding 90 percent
for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We
also show that the ELO-style aggregation used by Arena-Hard Auto collapses and
masks genuine ranking uncertainty. Our results highlight design failures that
undermine validity and offer actionable principles for building better-scoped,
reliability-aware LLM-judged benchmarks. We release our code at
https://anonymous.4open.science/r/judgment-to-noise-947D/README.md