ChatPaper.aiChatPaper

Wenn Urteile zu Rauschen werden: Wie Designfehler in LLM-Bewertungsbenchmarks die Validität stillschweigend untergraben

When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

September 24, 2025
papers.authors: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
cs.AI

papers.abstract

LLM-bewertete Benchmarks werden zunehmend zur Bewertung komplexer Modellverhaltensweisen eingesetzt, doch ihr Design führt zu Fehlermodi, die in herkömmlichen, auf Grundwahrheiten basierenden Benchmarks nicht vorhanden sind. Wir argumentieren, dass ohne klare Ziele und überprüfbare Konstruktionen Benchmark-Rankings hochkonfidente Rangfolgen erzeugen können, die in Wirklichkeit größtenteils Rauschen sind. Wir führen zwei Mechanismen ein, um diese Probleme zu diagnostizieren. Die schematische Einhaltung quantifiziert, wie viel des Gesamturteils eines Bewerters durch das explizite Bewertungsschema erklärt wird, und deckt unerklärte Varianz auf, wenn Bewerter von ihrem eigenen Bewertungsraster abweichen. Die psychometrische Validität aggregiert interne Konsistenz und diskriminante Validitätssignale, um die nicht reduzierbare Unsicherheit in jedem Benchmarking-Lauf zu quantifizieren. Durch die Anwendung dieser Werkzeuge auf Arena-Hard Auto stellen wir schwerwiegende Schema-Inkohärenz und Faktorzusammenbrüche bei beliebten Bewertern fest: Beispielsweise übersteigt die unerklärte Varianz 90 Prozent für DeepSeek-R1-32B, und die Faktorkorrelationen liegen bei den meisten Kriterien über 0,93. Wir zeigen auch, dass die in Arena-Hard Auto verwendete ELO-artige Aggregation echte Rangunsicherheiten zusammenbrechen und maskieren lässt. Unsere Ergebnisse verdeutlichen Designfehler, die die Validität untergraben, und bieten umsetzbare Prinzipien für den Aufbau besser abgesteckter, zuverlässigkeitsbewusster LLM-bewerteter Benchmarks. Wir veröffentlichen unseren Code unter https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
English
LLM-judged benchmarks are increasingly used to evaluate complex model behaviors, yet their design introduces failure modes absent in conventional ground-truth based benchmarks. We argue that without tight objectives and verifiable constructions, benchmark rankings can produce high-confidence rankings that are in fact largely noise. We introduce two mechanisms to diagnose these issues. Schematic adherence quantifies how much of a judge's overall verdict is explained by the explicit evaluation schema, revealing unexplained variance when judges deviate from their own rubric. Psychometric validity aggregates internal consistency and discriminant validity signals to quantify irreducible uncertainty in any benchmarking run. Applying these tools to Arena-Hard Auto, we find severe schema incoherence and factor collapse across popular judges: for example, unexplained variance exceeding 90 percent for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We also show that the ELO-style aggregation used by Arena-Hard Auto collapses and masks genuine ranking uncertainty. Our results highlight design failures that undermine validity and offer actionable principles for building better-scoped, reliability-aware LLM-judged benchmarks. We release our code at https://anonymous.4open.science/r/judgment-to-noise-947D/README.md
PDF53September 26, 2025