Putnam-AXIOM: Een Functionele en Statische Benchmark

Samenvatting

Huidige benchmarks voor wiskundig redeneren voor grote taalmodellen (LLMs) naderen verzadiging, waarbij sommige een nauwkeurigheid van > 90% behalen, en worden steeds meer aangetast door contaminatie van de trainingsset. Wij introduceren Putnam-AXIOM, een benchmark van 522 universitaire competitieproblemen afkomstig uit de prestigieuze William Lowell Putnam Mathematical Competition, en Putnam-AXIOM Variation, een onbekende begeleidende set van 100 functionele varianten gegenereerd door het programmatisch verstoren van variabelen en constanten. Het variatieprotocol produceert een onbeperkte stroom van even moeilijke, onbekende instanties – wat resulteert in een contaminatiebestendige testomgeving. Op de Originalset scoort OpenAI's o1-preview – het sterkste geëvalueerde model – 41,9%, maar de nauwkeurigheid daalt met 19,6% (een relatieve afname van 46,8%) op de gepaarde Variaties. De overige achttien modellen vertonen dezelfde neerwaartse trend, waarvan tien met niet-overlappende 95% betrouwbaarheidsintervallen. Deze verschillen suggereren memorisatie en benadrukken de noodzaak van dynamische benchmarks. Wij vullen "boxed" nauwkeurigheid aan met Teacher-Forced Accuracy (TFA), een lichtgewicht metriek die redeneersporen direct beoordeelt en evaluaties van natuurlijketaalbewijzen automatiseert. Putnam-AXIOM biedt daarom een rigoureus, contaminatiebestendig evaluatiekader voor het beoordelen van geavanceerd wiskundig redeneren van LLMs. Data en evaluatiecode zijn openbaar beschikbaar op https://github.com/brando90/putnam-axiom.

English

Current mathematical reasoning benchmarks for large language models (LLMs) are approaching saturation, with some achieving > 90% accuracy, and are increasingly compromised by training-set contamination. We introduce Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn from the prestigious William Lowell Putnam Mathematical Competition, and Putnam-AXIOM Variation, an unseen companion set of 100 functional variants generated by programmatically perturbing variables and constants. The variation protocol produces an unlimited stream of equally difficult, unseen instances -- yielding a contamination-resilient test bed. On the Original set, OpenAI's o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy drops by 19.6% (46.8% relative decrease) on the paired Variations. The remaining eighteen models show the same downward trend, ten of them with non-overlapping 95% confidence intervals. These gaps suggest memorization and highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores reasoning traces and automates natural language proof evaluations. Putnam-AXIOM therefore provides a rigorous, contamination-resilient evaluation framework for assessing advanced mathematical reasoning of LLMs. Data and evaluation code are publicly available at https://github.com/brando90/putnam-axiom.

Putnam-AXIOM: Een Functionele en Statische Benchmark

Putnam-AXIOM: A Functional and Static Benchmark

Samenvatting

Support