Quando il giudizio diventa rumore: come i difetti di progettazione nei benchmark di valutazione degli LLM minano silenziosamente la validità
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
September 24, 2025
Autori: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI
Abstract
I benchmark valutati da LLM sono sempre più utilizzati per valutare comportamenti complessi dei modelli, ma il loro design introduce modalità di fallimento assenti nei benchmark convenzionali basati su ground truth. Sosteniamo che, senza obiettivi rigorosi e costruzioni verificabili, le classifiche dei benchmark possono produrre ranking ad alta confidenza che in realtà sono prevalentemente rumore. Introduciamo due meccanismi per diagnosticare questi problemi. L'aderenza schematica quantifica quanto del verdetto complessivo di un giudice è spiegato dallo schema di valutazione esplicito, rivelando varianza inspiegata quando i giudici deviano dal proprio criterio. La validità psicometrica aggrega segnali di coerenza interna e validità discriminante per quantificare l'incertezza irriducibile in qualsiasi esecuzione di benchmarking. Applicando questi strumenti ad Arena-Hard Auto, troviamo una grave incoerenza dello schema e un collasso dei fattori tra i giudici più popolari: ad esempio, una varianza inspiegata superiore al 90% per DeepSeek-R1-32B e correlazioni dei fattori superiori a 0,93 per la maggior parte dei criteri. Mostriamo inoltre che l'aggregazione in stile ELO utilizzata da Arena-Hard Auto collassa e maschera la genuina incertezza del ranking. I nostri risultati evidenziano fallimenti di progettazione che minano la validità e offrono principi attuabili per costruire benchmark valutati da LLM con un ambito migliore e consapevoli dell'affidabilità. Rilasciamo il nostro codice all'indirizzo https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model
behaviors, yet their design introduces failure modes absent in conventional
ground-truth based benchmarks. We argue that without tight objectives and
verifiable constructions, benchmark rankings can produce high-confidence
rankings that are in fact largely noise. We introduce two mechanisms to
diagnose these issues. Schematic adherence quantifies how much of a judge's
overall verdict is explained by the explicit evaluation schema, revealing
unexplained variance when judges deviate from their own rubric. Psychometric
validity aggregates internal consistency and discriminant validity signals to
quantify irreducible uncertainty in any benchmarking run. Applying these tools
to Arena-Hard Auto, we find severe schema incoherence and factor collapse
across popular judges: for example, unexplained variance exceeding 90 percent
for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We
also show that the ELO-style aggregation used by Arena-Hard Auto collapses and
masks genuine ranking uncertainty. Our results highlight design failures that
undermine validity and offer actionable principles for building better-scoped,
reliability-aware LLM-judged benchmarks. We release our code at
https://anonymous.4open.science/r/judgment-to-noise-947D/README.md