ChatPaper.aiChatPaper

Les points de référence saturent lorsque le modèle devient plus intelligent que l'évaluateur.

Benchmarks Saturate When The Model Gets Smarter Than The Judge

January 27, 2026
papers.authors: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis
cs.AI

papers.abstract

Les benchmarks sont des outils essentiels pour suivre les progrès dans le développement des grands modèles de langage (LLM), mais les inexactitudes dans les jeux de données et les méthodes d'évaluation compromettent systématiquement leur efficacité. Nous présentons ici Omni-MATH-2, une version révisée manuellement du jeu de données Omni-MATH comprenant un sous-ensemble propre à réponses exactes (n=4181) et un sous-ensemble étiqueté non standard (n=247). Chaque problème a été audité pour garantir sa compilabilité LaTeX, sa résolubilité et sa vérifiabilité, ce qui a impliqué l'ajout de figures ou d'informations manquantes, l'étiquetage des problèmes nécessitant une preuve, une estimation ou une image, et la suppression des éléments superflus. Ce processus réduit significativement le bruit induit par le jeu de données, offrant ainsi une évaluation plus précise des performances des modèles. Le jeu de données annoté nous permet également d'évaluer le bruit induit par l'évaluateur en comparant GPT-5 mini avec l'Omni-Judge original, révélant des écarts substantiels entre les évaluateurs sur les sous-ensembles de problèmes propres et étiquetés. Les annotations expertes révèlent que l'Omni-Judge a tort dans 96,4 % des désaccords entre évaluateurs, indiquant son incapacité à différencier les capacités des modèles, et ce bien avant la saturation du benchmark. À mesure que les problèmes deviennent plus complexes, nous constatons que des évaluateurs de plus en plus compétents deviennent essentiels pour éviter que les erreurs d'évaluation ne masquent les véritables différences entre les modèles. Enfin, aucun des évaluateurs n'identifie les modes d'échec actuels pour le sous-ensemble de problèmes étiquetés, démontrant que la qualité du jeu de données et la fiabilité de l'évaluateur sont toutes deux critiques pour développer des benchmarks précis de la performance des modèles.
English
Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.
PDF12January 29, 2026