ChatPaper.aiChatPaper

Benchmarks sättigen sich, wenn das Modell schlauer wird als der Bewerter.

Benchmarks Saturate When The Model Gets Smarter Than The Judge

January 27, 2026
papers.authors: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis
cs.AI

papers.abstract

Benchmarks sind wichtige Werkzeuge, um Fortschritte bei der Entwicklung großer Sprachmodelle (LLMs) zu verfolgen, doch Ungenauigkeiten in Datensätzen und Evaluierungsmethoden untergraben ständig ihre Wirksamkeit. Hier stellen wir Omni-MATH-2 vor, eine manuell überarbeitete Version des Omni-MATH-Datensatzes, die einen bereinigten Teil mit exakten Antworten (n=4181) und einen markierten Teil mit nicht-standardisierten Problemen (n=247) umfasst. Jede Aufgabe wurde überprüft, um LaTeX-Kompilierbarkeit, Lösbarkeit und Überprüfbarkeit sicherzustellen. Dies beinhaltete das Hinzufügen fehlender Abbildungen oder Informationen, die Kennzeichnung von Aufgaben, die einen Beweis, eine Schätzung oder ein Bild erfordern, sowie die Bereinigung von überflüssigen Inhalten. Dieser Prozess reduziert datensatzbedingtes Rauschen erheblich und ermöglicht so eine präzisere Bewertung der Modellleistung. Der annotierte Datensatz ermöglicht es uns auch, richterbedingtes Rauschen zu evaluieren, indem wir GPT-5 mini mit dem ursprünglichen Omni-Judge vergleichen. Dabei zeigen sich erhebliche Diskrepanzen zwischen den Bewertungssystemen sowohl bei den bereinigten als auch bei den markierten Problemteilmengen. Experten-Annotationen zeigen, dass Omni-Judge in 96,4 % der Fälle von Bewertungsunterschieden falsch liegt, was auf seine Unfähigkeit hinweist, die Fähigkeiten der Modelle zu unterscheiden, und dies sogar weit vor einer Sättigung des Benchmarks. Wenn die Probleme anspruchsvoller werden, stellen wir fest, dass zunehmend kompetente Bewertungssysteme essenziell sind, um zu verhindern, dass Richterfehler echte Unterschiede zwischen den Modellen verschleiern. Schließlich identifiziert keines der Bewertungssysteme die vorhandenen Fehlermodi für die Teilmenge der markierten Probleme, was demonstriert, dass sowohl die Datensatzqualität als auch die Zuverlässigkeit des Bewertungssystems entscheidend für die Entwicklung genauer Benchmarks der Modellleistung sind.
English
Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.
PDF12January 29, 2026