Putnam-AXIOM: Ein funktionaler und statischer Benchmark
Putnam-AXIOM: A Functional and Static Benchmark
August 5, 2025
papers.authors: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI
papers.abstract
Aktuelle Benchmarks für mathematisches Denken bei großen Sprachmodellen (LLMs) nähern sich der Sättigung, wobei einige eine Genauigkeit von > 90 % erreichen, und werden zunehmend durch Kontamination der Trainingsdaten beeinträchtigt. Wir stellen Putnam-AXIOM vor, einen Benchmark mit 522 universitären Wettbewerbsproblemen aus dem renommierten William Lowell Putnam Mathematical Competition, sowie Putnam-AXIOM Variation, einen ungesehenen Begleitsatz von 100 funktionalen Varianten, die durch programmatische Veränderung von Variablen und Konstanten erzeugt wurden. Das Variationsprotokoll erzeugt einen unbegrenzten Strom gleich schwieriger, ungesehener Instanzen – was einen kontaminationsresistenten Testbereich bietet. Auf dem Originaldatensatz erreicht OpenAI's o1-preview – das stärkste evaluierte Modell – eine Genauigkeit von 41,9 %, die jedoch auf den gepaarten Variationen um 19,6 % (relativer Rückgang von 46,8 %) sinkt. Die übrigen achtzehn Modelle zeigen denselben Abwärtstrend, wobei zehn von ihnen nicht überlappende 95 %-Konfidenzintervalle aufweisen. Diese Lücken deuten auf Auswendiglernen hin und unterstreichen die Notwendigkeit dynamischer Benchmarks. Wir ergänzen die „boxed“ Genauigkeit mit Teacher-Forced Accuracy (TFA), einer leichtgewichtigen Metrik, die Denkspuren direkt bewertet und die Bewertung von Beweisen in natürlicher Sprache automatisiert. Putnam-AXIOM bietet somit einen rigorosen, kontaminationsresistenten Bewertungsrahmen zur Beurteilung fortgeschrittenen mathematischen Denkens von LLMs. Daten und Evaluationscode sind öffentlich verfügbar unter https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs)
are approaching saturation, with some achieving > 90% accuracy, and are
increasingly compromised by training-set contamination. We introduce
Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn
from the prestigious William Lowell Putnam Mathematical Competition, and
Putnam-AXIOM Variation, an unseen companion set of 100 functional variants
generated by programmatically perturbing variables and constants. The variation
protocol produces an unlimited stream of equally difficult, unseen instances --
yielding a contamination-resilient test bed. On the Original set, OpenAI's
o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy
drops by 19.6% (46.8% relative decrease) on the paired Variations. The
remaining eighteen models show the same downward trend, ten of them with
non-overlapping 95% confidence intervals. These gaps suggest memorization and
highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy
with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores
reasoning traces and automates natural language proof evaluations. Putnam-AXIOM
therefore provides a rigorous, contamination-resilient evaluation framework for
assessing advanced mathematical reasoning of LLMs. Data and evaluation code are
publicly available at https://github.com/brando90/putnam-axiom.