Putnam-AXIOM : Un benchmark fonctionnel et statique
Putnam-AXIOM: A Functional and Static Benchmark
August 5, 2025
papers.authors: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI
papers.abstract
Les benchmarks actuels de raisonnement mathématique pour les grands modèles de langage (LLM) approchent de la saturation, certains atteignant une précision supérieure à 90 %, et sont de plus en plus compromis par la contamination des ensembles d'entraînement. Nous présentons Putnam-AXIOM, un benchmark de 522 problèmes de compétition universitaire tirés du prestigieux concours William Lowell Putnam de mathématiques, ainsi que Putnam-AXIOM Variation, un ensemble compagnon inédit de 100 variantes fonctionnelles générées en perturbant programmatiquement les variables et les constantes. Le protocole de variation produit un flux illimité d'instances également difficiles et inédites, offrant ainsi un banc d'essai résilient à la contamination. Sur l'ensemble Original, o1-preview d'OpenAI — le modèle le plus performant évalué — obtient un score de 41,9 %, mais sa précision chute de 19,6 % (une diminution relative de 46,8 %) sur les Variations appariées. Les dix-huit autres modèles montrent la même tendance à la baisse, dix d'entre eux ayant des intervalles de confiance à 95 % non chevauchants. Ces écarts suggèrent une mémorisation et soulignent la nécessité de benchmarks dynamiques. Nous complétons la précision "encadrée" par la Teacher-Forced Accuracy (TFA), une métrique légère qui évalue directement les traces de raisonnement et automatise l'évaluation des preuves en langage naturel. Putnam-AXIOM fournit donc un cadre d'évaluation rigoureux et résilient à la contamination pour évaluer le raisonnement mathématique avancé des LLM. Les données et le code d'évaluation sont disponibles publiquement à l'adresse https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs)
are approaching saturation, with some achieving > 90% accuracy, and are
increasingly compromised by training-set contamination. We introduce
Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn
from the prestigious William Lowell Putnam Mathematical Competition, and
Putnam-AXIOM Variation, an unseen companion set of 100 functional variants
generated by programmatically perturbing variables and constants. The variation
protocol produces an unlimited stream of equally difficult, unseen instances --
yielding a contamination-resilient test bed. On the Original set, OpenAI's
o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy
drops by 19.6% (46.8% relative decrease) on the paired Variations. The
remaining eighteen models show the same downward trend, ten of them with
non-overlapping 95% confidence intervals. These gaps suggest memorization and
highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy
with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores
reasoning traces and automates natural language proof evaluations. Putnam-AXIOM
therefore provides a rigorous, contamination-resilient evaluation framework for
assessing advanced mathematical reasoning of LLMs. Data and evaluation code are
publicly available at https://github.com/brando90/putnam-axiom.