ChatPaper.aiChatPaper

Quando o Julgamento se Torna Ruído: Como Falhas de Projeto em Benchmarks de Julgamento de LLMs Silenciosamente Comprometem a Validade

When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

September 24, 2025
Autores: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI

Resumo

Os benchmarks avaliados por LLMs (Large Language Models) estão sendo cada vez mais utilizados para avaliar comportamentos complexos de modelos, mas seu projeto introduz modos de falha ausentes nos benchmarks convencionais baseados em verdades absolutas. Argumentamos que, sem objetivos bem definidos e construções verificáveis, as classificações dos benchmarks podem produzir rankings de alta confiança que, na verdade, são em grande parte ruído. Introduzimos dois mecanismos para diagnosticar esses problemas. A adesão esquemática quantifica quanto do veredito geral de um avaliador é explicado pelo esquema de avaliação explícito, revelando variância inexplicada quando os avaliadores se desviam de sua própria rubrica. A validade psicométrica agrega sinais de consistência interna e validade discriminante para quantificar a incerteza irredutível em qualquer execução de benchmark. Aplicando essas ferramentas ao Arena-Hard Auto, encontramos incoerência esquemática severa e colapso de fatores entre avaliadores populares: por exemplo, variância inexplicada excedendo 90% para o DeepSeek-R1-32B e correlações de fatores acima de 0,93 para a maioria dos critérios. Também mostramos que a agregação no estilo ELO usada pelo Arena-Hard Auto colapsa e mascara a incerteza genuína do ranking. Nossos resultados destacam falhas de projeto que comprometem a validade e oferecem princípios acionáveis para a construção de benchmarks avaliados por LLMs com escopo melhor definido e conscientes da confiabilidade. Disponibilizamos nosso código em https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model behaviors, yet their design introduces failure modes absent in conventional ground-truth based benchmarks. We argue that without tight objectives and verifiable constructions, benchmark rankings can produce high-confidence rankings that are in fact largely noise. We introduce two mechanisms to diagnose these issues. Schematic adherence quantifies how much of a judge's overall verdict is explained by the explicit evaluation schema, revealing unexplained variance when judges deviate from their own rubric. Psychometric validity aggregates internal consistency and discriminant validity signals to quantify irreducible uncertainty in any benchmarking run. Applying these tools to Arena-Hard Auto, we find severe schema incoherence and factor collapse across popular judges: for example, unexplained variance exceeding 90 percent for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We also show that the ELO-style aggregation used by Arena-Hard Auto collapses and masks genuine ranking uncertainty. Our results highlight design failures that undermine validity and offer actionable principles for building better-scoped, reliability-aware LLM-judged benchmarks. We release our code at https://anonymous.4open.science/r/judgment-to-noise-947D/README.md
PDF73September 26, 2025