Benchmarks Verzadigen Wanneer Het Model Slimmer Wordt Dan De Beoordelaar

Samenvatting

Benchmarks zijn belangrijke instrumenten om de voortgang in de ontwikkeling van Large Language Models (LLM's) bij te houden, maar onnauwkeurigheden in datasets en evaluatiemethoden ondermijnen hun effectiviteit stelselmatig. Hier presenteren we Omni-MATH-2, een handmatig gereviseerde versie van de Omni-MATH-dataset, bestaande uit een schone subset met exacte antwoorden (n=4181) en een gelabelde subset met niet-standaard problemen (n=247). Elk probleem werd gecontroleerd om LaTeX-compileerbaarheid, oplosbaarheid en verifieerbaarheid te garanderen. Dit proces omvatte het toevoegen van ontbrekende figuren of informatie, het labelen van problemen die een bewijs, schatting of afbeelding vereisen, en het verwijderen van overbodige informatie. Dit proces vermindert dataset-geïnduceerde ruis aanzienlijk, waardoor een nauwkeurigere beoordeling van modelprestaties mogelijk wordt. De geannoteerde dataset stelt ons ook in staat om judge-geïnduceerde ruis te evalueren door GPT-5 mini te vergelijken met de originele Omni-Judge, wat aanzienlijke discrepanties tussen de beoordelaars aan het licht brengt, zowel voor de schone als de gelabelde problemsubsets. Expertannotaties tonen aan dat Omni-Judge in 96,4% van de geschillen tussen beoordelaars ongelijk heeft, wat wijst op een onvermogen om onderscheid te maken tussen de capaciteiten van modellen, zelfs ruim voordat de benchmark verzadigd raakt. Naarmate problemen uitdagender worden, zien we dat competentere beoordelaars essentieel worden om te voorkomen dat beoordelingsfouten werkelijke verschillen tussen modellen maskeren. Tot slot identificeren geen van beide beoordelaars de huidige faalwijzen voor de subset van gelabelde problemen, wat aantoont dat zowel datasetkwaliteit als betrouwbaarheid van de beoordelaar cruciaal zijn voor het ontwikkelen van nauwkeurige benchmarks voor modelprestaties.

English

Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.

Benchmarks Verzadigen Wanneer Het Model Slimmer Wordt Dan De Beoordelaar

Benchmarks Saturate When The Model Gets Smarter Than The Judge

Samenvatting

Support