Putnam-AXIOM: Een Functionele en Statische Benchmark
Putnam-AXIOM: A Functional and Static Benchmark
August 5, 2025
Auteurs: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI
Samenvatting
Huidige benchmarks voor wiskundig redeneren voor grote taalmodellen (LLMs) naderen verzadiging, waarbij sommige een nauwkeurigheid van > 90% behalen, en worden steeds meer aangetast door contaminatie van de trainingsset. Wij introduceren Putnam-AXIOM, een benchmark van 522 universitaire competitieproblemen afkomstig uit de prestigieuze William Lowell Putnam Mathematical Competition, en Putnam-AXIOM Variation, een onbekende begeleidende set van 100 functionele varianten gegenereerd door het programmatisch verstoren van variabelen en constanten. Het variatieprotocol produceert een onbeperkte stroom van even moeilijke, onbekende instanties – wat resulteert in een contaminatiebestendige testomgeving. Op de Originalset scoort OpenAI's o1-preview – het sterkste geëvalueerde model – 41,9%, maar de nauwkeurigheid daalt met 19,6% (een relatieve afname van 46,8%) op de gepaarde Variaties. De overige achttien modellen vertonen dezelfde neerwaartse trend, waarvan tien met niet-overlappende 95% betrouwbaarheidsintervallen. Deze verschillen suggereren memorisatie en benadrukken de noodzaak van dynamische benchmarks. Wij vullen "boxed" nauwkeurigheid aan met Teacher-Forced Accuracy (TFA), een lichtgewicht metriek die redeneersporen direct beoordeelt en evaluaties van natuurlijketaalbewijzen automatiseert. Putnam-AXIOM biedt daarom een rigoureus, contaminatiebestendig evaluatiekader voor het beoordelen van geavanceerd wiskundig redeneren van LLMs. Data en evaluatiecode zijn openbaar beschikbaar op https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs)
are approaching saturation, with some achieving > 90% accuracy, and are
increasingly compromised by training-set contamination. We introduce
Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn
from the prestigious William Lowell Putnam Mathematical Competition, and
Putnam-AXIOM Variation, an unseen companion set of 100 functional variants
generated by programmatically perturbing variables and constants. The variation
protocol produces an unlimited stream of equally difficult, unseen instances --
yielding a contamination-resilient test bed. On the Original set, OpenAI's
o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy
drops by 19.6% (46.8% relative decrease) on the paired Variations. The
remaining eighteen models show the same downward trend, ten of them with
non-overlapping 95% confidence intervals. These gaps suggest memorization and
highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy
with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores
reasoning traces and automates natural language proof evaluations. Putnam-AXIOM
therefore provides a rigorous, contamination-resilient evaluation framework for
assessing advanced mathematical reasoning of LLMs. Data and evaluation code are
publicly available at https://github.com/brando90/putnam-axiom.