Quando o Julgamento se Torna Ruído: Como Falhas de Projeto em Benchmarks de Julgamento de LLMs Silenciosamente Comprometem a Validade
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
September 24, 2025
Autores: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI
Resumo
Os benchmarks avaliados por LLMs (Large Language Models) estão sendo cada vez mais utilizados para avaliar comportamentos complexos de modelos, mas seu projeto introduz modos de falha ausentes nos benchmarks convencionais baseados em verdades absolutas. Argumentamos que, sem objetivos bem definidos e construções verificáveis, as classificações dos benchmarks podem produzir rankings de alta confiança que, na verdade, são em grande parte ruído. Introduzimos dois mecanismos para diagnosticar esses problemas. A adesão esquemática quantifica quanto do veredito geral de um avaliador é explicado pelo esquema de avaliação explícito, revelando variância inexplicada quando os avaliadores se desviam de sua própria rubrica. A validade psicométrica agrega sinais de consistência interna e validade discriminante para quantificar a incerteza irredutível em qualquer execução de benchmark. Aplicando essas ferramentas ao Arena-Hard Auto, encontramos incoerência esquemática severa e colapso de fatores entre avaliadores populares: por exemplo, variância inexplicada excedendo 90% para o DeepSeek-R1-32B e correlações de fatores acima de 0,93 para a maioria dos critérios. Também mostramos que a agregação no estilo ELO usada pelo Arena-Hard Auto colapsa e mascara a incerteza genuína do ranking. Nossos resultados destacam falhas de projeto que comprometem a validade e oferecem princípios acionáveis para a construção de benchmarks avaliados por LLMs com escopo melhor definido e conscientes da confiabilidade. Disponibilizamos nosso código em https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model
behaviors, yet their design introduces failure modes absent in conventional
ground-truth based benchmarks. We argue that without tight objectives and
verifiable constructions, benchmark rankings can produce high-confidence
rankings that are in fact largely noise. We introduce two mechanisms to
diagnose these issues. Schematic adherence quantifies how much of a judge's
overall verdict is explained by the explicit evaluation schema, revealing
unexplained variance when judges deviate from their own rubric. Psychometric
validity aggregates internal consistency and discriminant validity signals to
quantify irreducible uncertainty in any benchmarking run. Applying these tools
to Arena-Hard Auto, we find severe schema incoherence and factor collapse
across popular judges: for example, unexplained variance exceeding 90 percent
for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We
also show that the ELO-style aggregation used by Arena-Hard Auto collapses and
masks genuine ranking uncertainty. Our results highlight design failures that
undermine validity and offer actionable principles for building better-scoped,
reliability-aware LLM-judged benchmarks. We release our code at
https://anonymous.4open.science/r/judgment-to-noise-947D/README.md