ChatPaper.aiChatPaper

判断がノイズになるとき:LLM評価ベンチマークの設計失敗が 有効性を静かに損なう仕組み

When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

September 24, 2025
著者: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI

要旨

LLM(大規模言語モデル)による評価ベンチマークは、複雑なモデルの振る舞いを評価するためにますます使用されていますが、その設計には従来のグラウンドトゥルースに基づくベンチマークにはない失敗モードが存在します。我々は、厳密な目的と検証可能な構成がなければ、ベンチマークのランキングは実際にはほとんどノイズである高信頼度のランキングを生み出す可能性があると主張します。これらの問題を診断するために、2つのメカニズムを導入します。スキーマ遵守度は、評価者の全体的な判断が明示的な評価スキーマによってどの程度説明されるかを定量化し、評価者が自身のルーブリックから逸脱した際の説明不能な分散を明らかにします。心理測定学的妥当性は、内部一貫性と弁別的妥当性の信号を集約し、ベンチマーク実行における不可避の不確実性を定量化します。これらのツールをArena-Hard Autoに適用した結果、人気のある評価者間で深刻なスキーマの不整合と因子の崩壊が見られました。例えば、DeepSeek-R1-32Bでは説明不能な分散が90%を超え、ほとんどの基準で因子相関が0.93以上でした。また、Arena-Hard Autoで使用されているELOスタイルの集約が、真のランキングの不確実性を崩壊させ、隠蔽していることも示しました。我々の結果は、妥当性を損なう設計上の失敗を強調し、より適切に範囲を定めた信頼性を意識したLLM評価ベンチマークを構築するための実践的な原則を提供します。コードはhttps://anonymous.4open.science/r/judgment-to-noise-947D/README.mdで公開しています。
English
LLM-judged benchmarks are increasingly used to evaluate complex model behaviors, yet their design introduces failure modes absent in conventional ground-truth based benchmarks. We argue that without tight objectives and verifiable constructions, benchmark rankings can produce high-confidence rankings that are in fact largely noise. We introduce two mechanisms to diagnose these issues. Schematic adherence quantifies how much of a judge's overall verdict is explained by the explicit evaluation schema, revealing unexplained variance when judges deviate from their own rubric. Psychometric validity aggregates internal consistency and discriminant validity signals to quantify irreducible uncertainty in any benchmarking run. Applying these tools to Arena-Hard Auto, we find severe schema incoherence and factor collapse across popular judges: for example, unexplained variance exceeding 90 percent for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We also show that the ELO-style aggregation used by Arena-Hard Auto collapses and masks genuine ranking uncertainty. Our results highlight design failures that undermine validity and offer actionable principles for building better-scoped, reliability-aware LLM-judged benchmarks. We release our code at https://anonymous.4open.science/r/judgment-to-noise-947D/README.md
PDF53September 26, 2025