Когда суждение превращается в шум: как ошибки в дизайне бенчмарков для оценки LLM незаметно подрывают их валидность
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity
September 24, 2025
Авторы: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI
Аннотация
Бенчмарки, оцениваемые с помощью языковых моделей (LLM), всё чаще используются для анализа сложного поведения моделей, однако их проектирование вносит ошибки, отсутствующие в традиционных бенчмарках, основанных на эталонных данных. Мы утверждаем, что без чётких целей и проверяемых конструкций рейтинги бенчмарков могут порождать высокоуверенные, но фактически шумные результаты. Мы предлагаем два механизма для диагностики этих проблем. Схематическая согласованность количественно оценивает, насколько вердикт судьи объясняется явной схемой оценки, выявляя необъяснимую дисперсию, когда судьи отклоняются от собственных критериев. Психометрическая валидность объединяет сигналы внутренней согласованности и дискриминантной валидности, чтобы количественно оценить нередуцируемую неопределённость в любом запуске бенчмарка. Применяя эти инструменты к Arena-Hard Auto, мы обнаруживаем серьёзную несогласованность схем и коллапс факторов среди популярных судей: например, необъяснимая дисперсия превышает 90% для DeepSeek-R1-32B, а корреляции факторов превышают 0,93 для большинства критериев. Мы также показываем, что агрегация в стиле ELO, используемая в Arena-Hard Auto, маскирует подлинную неопределённость рейтингов. Наши результаты выявляют ошибки проектирования, подрывающие валидность, и предлагают практические принципы для создания более точных и надёжных бенчмарков, оцениваемых LLM. Мы публикуем наш код по адресу https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model
behaviors, yet their design introduces failure modes absent in conventional
ground-truth based benchmarks. We argue that without tight objectives and
verifiable constructions, benchmark rankings can produce high-confidence
rankings that are in fact largely noise. We introduce two mechanisms to
diagnose these issues. Schematic adherence quantifies how much of a judge's
overall verdict is explained by the explicit evaluation schema, revealing
unexplained variance when judges deviate from their own rubric. Psychometric
validity aggregates internal consistency and discriminant validity signals to
quantify irreducible uncertainty in any benchmarking run. Applying these tools
to Arena-Hard Auto, we find severe schema incoherence and factor collapse
across popular judges: for example, unexplained variance exceeding 90 percent
for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We
also show that the ELO-style aggregation used by Arena-Hard Auto collapses and
masks genuine ranking uncertainty. Our results highlight design failures that
undermine validity and offer actionable principles for building better-scoped,
reliability-aware LLM-judged benchmarks. We release our code at
https://anonymous.4open.science/r/judgment-to-noise-947D/README.md