Cuando el juicio se convierte en ruido: cómo los fallos de diseño en los benchmarks de evaluación de LLM socavan silenciosamente la validez
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
September 24, 2025
Autores: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI
Resumen
Los puntos de referencia evaluados por LLM se utilizan cada vez más para evaluar comportamientos complejos de modelos, pero su diseño introduce modos de fallo ausentes en los puntos de referencia convencionales basados en verdades fundamentales. Argumentamos que, sin objetivos precisos y construcciones verificables, las clasificaciones de los puntos de referencia pueden producir rankings de alta confianza que, en realidad, son en gran parte ruido. Introducimos dos mecanismos para diagnosticar estos problemas. La adherencia esquemática cuantifica cuánto del veredicto general de un juez se explica por el esquema de evaluación explícito, revelando varianza no explicada cuando los jueces se desvían de su propia rúbrica. La validez psicométrica agrega señales de consistencia interna y validez discriminante para cuantificar la incertidumbre irreducible en cualquier ejecución de evaluación. Aplicando estas herramientas a Arena-Hard Auto, encontramos incoherencia esquemática severa y colapso de factores en jueces populares: por ejemplo, varianza no explicada que supera el 90 por ciento para DeepSeek-R1-32B y correlaciones de factores por encima de 0.93 para la mayoría de los criterios. También demostramos que la agregación estilo ELO utilizada por Arena-Hard Auto colapsa y oculta la incertidumbre genuina en las clasificaciones. Nuestros resultados destacan fallos de diseño que socavan la validez y ofrecen principios prácticos para construir puntos de referencia evaluados por LLM con un alcance mejor definido y conscientes de la fiabilidad. Publicamos nuestro código en https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model
behaviors, yet their design introduces failure modes absent in conventional
ground-truth based benchmarks. We argue that without tight objectives and
verifiable constructions, benchmark rankings can produce high-confidence
rankings that are in fact largely noise. We introduce two mechanisms to
diagnose these issues. Schematic adherence quantifies how much of a judge's
overall verdict is explained by the explicit evaluation schema, revealing
unexplained variance when judges deviate from their own rubric. Psychometric
validity aggregates internal consistency and discriminant validity signals to
quantify irreducible uncertainty in any benchmarking run. Applying these tools
to Arena-Hard Auto, we find severe schema incoherence and factor collapse
across popular judges: for example, unexplained variance exceeding 90 percent
for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We
also show that the ELO-style aggregation used by Arena-Hard Auto collapses and
masks genuine ranking uncertainty. Our results highlight design failures that
undermine validity and offer actionable principles for building better-scoped,
reliability-aware LLM-judged benchmarks. We release our code at
https://anonymous.4open.science/r/judgment-to-noise-947D/README.md